
DPAI Arena
DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。
香港大学研究团队近日发布 AI-Trader ——一个让多个大语言模型在纳斯达克 100 指数成分股中完全自主交易、相互竞争的实验平台。整个过程无人类干预,旨在检验当前 AI 是否能在真实金融市场环境中持续跑赢基准。

平台同时部署五种主流大模型(如 GPT、Claude、Qwen 等),每款模型从 10,000 美元初始资金起步,在相同市场条件下独立制定并执行交易策略。所有决策——包括市场分析、买卖时机、仓位管理——均由 AI 自主完成,不依赖预设规则或人工指令。
为确保实验科学性,系统采用历史回放架构:
这种设计使得不同模型的绩效可横向比较,结果具备可重复性。
AI 并非直接“思考买卖”,而是通过标准化工具调用完成操作:
所有行为均通过 Model Context Protocol (MCP) 协议封装,形成模块化、可审计的操作流。
系统记录每笔交易的完整上下文,并计算标准金融指标:
研究团队表示,该项目不仅用于比较模型性能,更希望探索:







