AI-Trader

5个月前发布 367 00

AI-Trader 让五款不同的 AI 模型各自采用独特的投资策略，在同一市场中自主竞争，以确定哪款能在纳斯达克 100 交易中产生最高利润！

所在地：

中国

收录时间：

2025-10-31

其他站点:

打开网站手机查看

基准测试 # AI-Trader # 纳斯达克

AI-Trader

AI-Trader

香港大学研究团队近日发布 AI-Trader ——一个让多个大语言模型在纳斯达克 100 指数成分股中完全自主交易、相互竞争的实验平台。整个过程无人类干预，旨在检验当前 AI 是否能在真实金融市场环境中持续跑赢基准。

AI-Trader

五款 AI 同台竞技

平台同时部署五种主流大模型（如 GPT、Claude、Qwen 等），每款模型从 10,000 美元初始资金起步，在相同市场条件下独立制定并执行交易策略。所有决策——包括市场分析、买卖时机、仓位管理——均由 AI 自主完成，不依赖预设规则或人工指令。

核心设计原则：公平、可复现、无前瞻

为确保实验科学性，系统采用历史回放架构：

AI 仅能访问当前模拟时间点及之前的数据；
新闻、财报、股价等信息严格按时间线释放，杜绝“未来信息泄露”；
所有模型共享同一数据源（Alpha Vantage + Jina AI 实时情报）和工具链。

这种设计使得不同模型的绩效可横向比较，结果具备可重复性。

技术实现：基于 MCP 工具链的自主代理

AI 并非直接“思考买卖”，而是通过标准化工具调用完成操作：

交易工具：执行买入/卖出、查询持仓；
价格工具：获取历史与实时 OHLCV 数据；
搜索工具：检索市场新闻与财报；
数学工具：进行收益率、风险等计算。

所有行为均通过 Model Context Protocol (MCP) 协议封装，形成模块化、可审计的操作流。

即将上线的功能（本周更新）

小时级交易精度：支持日内高频策略测试；
并行执行与服务部署：提升多模型并发效率；
增强型前端仪表盘：可视化完整交易日志，包括决策依据与仓位变化。

评估指标与研究价值

系统记录每笔交易的完整上下文，并计算标准金融指标：

年化收益率
最大回撤
夏普比率
换手率与风险暴露

研究团队表示，该项目不仅用于比较模型性能，更希望探索：

AI 在不确定性市场中的决策一致性；
自主策略的演化能力；
生成式 AI 在量化金融中的实际边界。

重要说明：AI 未使用订阅服务或人类干预

所有 AI 代理无预编程策略；
交易期间禁止任何形式的人工覆盖；
仅当调用 Canva Pro 类服务时才需订阅（本项目不涉及）；
核心交易功能完全免费、开源、本地可运行。

数据统计

相关导航

LiveMCPBench

LiveMCPBench 提供了一个全面的基准测试框架，用于评估 LLM 代理在大规模 MCP 环境中的任务执行能力。通过引入大规模工具集和动态评估框架，LiveMCPBench 为研究者提供了一个可靠的平台，用于开发和评估能够适应复杂多变环境的智能代理。

AI Ping

AI Ping 是一个面向大模型使用者，提供全面、客观、真实的大模型服务评测平台。官方精心打造的大模型服务性能排行榜，由专业团队定期、高频率地输出测评结果，并进行实时更新，清晰地呈现每个供应商在不同时间段的数据表现，为开发者提供即时、详细的数据参考服务，助力行业提升AI产品应用的开发效率与服务质量。

BrowseComp-Plus

BrowseComp-Plus

当面对“某位科学家在2010年发表的论文是否引用了某项早期成...

PinchBench

PinchBench 是一个基准测试系统，用于评估作为 OpenClaw 编码智能体的大语言模型。我们在不同模型上运行同一组真实世界任务，并衡量成功率、速度和成本，以帮助开发者为其用例选择合适的模型。

WorldVQA

WorldVQA是一个旨在衡量多模态大语言模型（MLLM）事实正确性的新基准。尽管最近发布的模型在视觉推理和描述方面展现出了令人印象深刻的能力，但衡量它们在视觉世界知识方面的可靠性仍然是一个挑战。

imgsys

imgsys.org 是一个专注于开源文本引导图像生成模型的评估平台，通过用户偏好数据的收集和开源，推动图像生成领域的研究和开发。

3D Arena

Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集，并通过 ELO 排名系统提供可靠、可解释的模型评估结果。

InferenceMax

InferenceMAX 是一个开源的、基于 Apache2 许可的自动化基准测试，旨在以软件生态系统自身的快速速度前进，旨在解决这一挑战。

暂无评论

none

暂无评论...