MCPMark

3个月前发布 216 00

MCPMark 的推出,填补了当前在**模型代理能力系统化评测**方面的空白。它不仅提供了一套标准化的测试框架,更强调安全性、可复现性与易用性,是推动大模型走向“可用智能体”的重要基础设施。

所在地:
中国
收录时间:
2025-08-26
其他站点:

在大模型向“智能体”(Agent)演进的过程中,衡量其在真实工具环境中的上下文协议交互能力MCP)变得至关重要。为此, EVALSYS联合LobeHub 推出 MCPMark —— 一个专注于评估大模型Agent能力的综合性基准测试套件。

MCPMark

MCPMark 支持在多个真实服务环境中测试模型的自动化操作能力,涵盖 Notion、GitHub、文件系统、PostgreSQL、Playwright(网页自动化) 等常用工具链,全面检验模型在复杂任务中的规划、执行与容错能力。

为什么需要 MCPMark?

随着大模型从“回答问题”转向“完成任务”,其与外部系统的交互能力成为关键指标。传统的语言理解或代码生成基准已无法充分反映模型在真实工作流中的表现。

MCPMark 的目标是:

  • 在隔离环境中安全运行代理任务;
  • 模拟真实用户操作流程;
  • 自动化评估模型在多步骤、跨工具任务中的成功率;
  • 提供可复现、可对比的量化结果。

所有实验均在沙箱中完成,结束后自动销毁环境,确保不干扰用户现有配置或泄露敏感信息。

MCPMark

核心特性

✅ 多服务支持

目前已集成以下 MCP 服务:

  • Notion:文档创建、内容更新、数据库查询
  • GitHub:Issue 提交、PR 评论、代码提交
  • Filesystem:本地文件读写、目录管理
  • Postgres:SQL 查询与数据操作
  • Playwright:网页导航、表单填写、动态内容抓取

未来将持续扩展更多企业级工具支持。

✅ 安全隔离机制

每个实验运行在独立的运行时环境中,依赖容器化或虚拟环境隔离资源,保障系统安全与数据隐私。

✅ 实验自动恢复

若实验因网络中断、状态冲突等临时错误中断,MCPMark 支持断点续跑:

  • 仅重新执行未完成或失败的任务;
  • 自动重试因 State Duplication Error 或 MCP Network Error 导致失败的步骤;
  • 减少重复计算开销,提升测试效率。

✅ 结果结构化输出

所有实验结果以标准格式保存至 ./results/ 目录:

  • JSON:记录每项任务的详细执行日志;
  • CSV:便于统计分析成功率、响应延迟、token 消耗等指标。

✅ 一键可视化分析

通过简单命令即可生成可视化报告:

python -m examples.results_parser --exp-name new_exp --mcp notion

该命令将:

  • 扫描指定实验目录下所有完成的任务;
  • 过滤掉存在管道错误的未完成模型;
  • 生成包含任务成功率、平均 token 消耗、响应时间等维度的图表;
  • 输出为 summary_{SERVICE}.png,存放于对应实验目录旁,便于归档与对比。

如何使用 MCPMark?

1. 安装

通过 pip 安装:

pip install mcpmark

或使用 Docker 镜像获取完整运行环境(推荐)。

2. 授权配置

  • 为 GitHub 和 Notion 配置访问令牌(Token);
  • 将凭证写入 .mcp_env 文件,格式如下:
    GITHUB_TOKEN=your_github_token
    NOTION_TOKEN=your_notion_token
    

3. 运行实验

方式一:Pip 安装模式

# 评估所有任务
python -m pipeline --exp-name new_exp --mcp notion --tasks all --models o3

# 评估特定任务组(如 online_resume)
python -m pipeline --exp-name new_exp --mcp notion --tasks online_resume --models o3

# 评估单个任务
python -m pipeline --exp-name new_exp --mcp notion --tasks online_resume/task_1 --models o3

# 多模型对比测试
python -m pipeline --exp-name new_exp --mcp notion --tasks all --models o3,gpt-4.1

方式二:Docker 模式

# 运行单一服务的所有任务
./run-task.sh --mcp notion --models o3 --exp-name new_exp --tasks all

# 跨服务综合基准测试
./run-benchmark.sh --models o3,gpt-4.1 --exp-name new_exp --docker

更多参数说明详见官方 Quick Start 和 Task Page

支持的模型列表

MCPMark 兼容主流前沿模型,便于横向对比:

组织支持模型
OpenAIgpt-4o, gpt-4.1, gpt-4.1-mini, gpt-5, gpt-5-mini, gpt-5-nano, o3, o4-mini
xAIgrok-4
Googlegemini-2.5-pro, gemini-2.5-flash
Anthropicclaude-3-7-sonnet, claude-4-sonnet, claude-4-opus
DeepSeekdeepseek-chat, deepseek-reasoner
Moonshotk2

新增模型可通过标准接口接入,支持自定义 MCP 服务扩展。

适用人群

  • 研究人员:用于评估新型 Agent 架构的有效性;
  • 工程团队:验证模型在实际工作流中的可靠性;
  • 产品开发者:比较不同模型在自动化任务中的性能差异;
  • 开源社区:贡献新任务、新服务或优化现有流程。

数据统计

相关导航

暂无评论

none
暂无评论...