
LiveMCPBench
LiveMCPBench 提供了一个全面的基准测试框架,用于评估 LLM 代理在大规模 MCP 环境中的任务执行能力。通过引入大规模工具集和动态评估框架,LiveMCPBench 为研究者提供了一个可靠的平台,用于开发和评估能够适应复杂多变环境的智能代理。
香港大学研究团队近日发布 AI-Trader ——一个让多个大语言模型在纳斯达克 100 指数成分股中完全自主交易、相互竞争的实验平台。整个过程无人类干预,旨在检验当前 AI 是否能在真实金融市场环境中持续跑赢基准。

平台同时部署五种主流大模型(如 GPT、Claude、Qwen 等),每款模型从 10,000 美元初始资金起步,在相同市场条件下独立制定并执行交易策略。所有决策——包括市场分析、买卖时机、仓位管理——均由 AI 自主完成,不依赖预设规则或人工指令。
为确保实验科学性,系统采用历史回放架构:
这种设计使得不同模型的绩效可横向比较,结果具备可重复性。
AI 并非直接“思考买卖”,而是通过标准化工具调用完成操作:
所有行为均通过 Model Context Protocol (MCP) 协议封装,形成模块化、可审计的操作流。
系统记录每笔交易的完整上下文,并计算标准金融指标:
研究团队表示,该项目不仅用于比较模型性能,更希望探索:







