OpenCUA:首个开源的计算机使用智能体框架发布

多模态模型4个月前发布 小马良
897 0

你是否曾希望有一个 AI 助手,能像你一样操作电脑——打开浏览器查资料、在 Excel 中整理数据、切换应用完成多步骤任务?如今,这类被称为“计算机使用智能体”(Computer Use Agents, CUA)的系统正逐步成为现实。

然而,尽管部分商业产品已展示出强大能力,其核心技术细节却普遍闭源。这不仅限制了学术研究,也带来了透明度、安全性与公平评估的隐患。

为打破这一壁垒,香港大学 XLANG 实验室、月之暗面、斯坦福大学、滑铁卢大学与卡内基梅隆大学联合推出 OpenCUA ——一个全面开源的计算机使用智能体框架

它包含从数据采集、标注、处理到模型训练的完整链条,旨在为研究社区提供可复现、可扩展、可审计的 CUA 基础设施。

OpenCUA:首个开源的计算机使用智能体框架发布

为什么需要开源的 CUA 框架?

当前最先进的 CUA 系统多由大公司开发,其能力令人印象深刻,但存在三大问题:

  1. 黑箱化严重:缺乏公开数据与训练方法,难以分析其真实能力边界;
  2. 评估不统一:不同系统在不同环境测试,无法横向比较;
  3. 泛化能力存疑:多数系统仅在特定应用或操作系统中验证,难以判断跨平台适应性。

随着 CUA 开始介入金融操作、办公自动化、个人数据管理等敏感场景,我们不能再依赖“能力强大但不可见”的系统

OpenCUA:首个开源的计算机使用智能体框架发布

OpenCUA 的目标正是构建一个开放、透明、可验证的研究生态。

OpenCUA 框架三大核心组件

OpenCUA:首个开源的计算机使用智能体框架发布

1. AgentNetTool:跨平台标注工具

要训练能操作电脑的 AI,首先需要高质量的人类操作数据。

为此,团队开发了 AgentNetTool ——一款轻量级、跨平台的标注应用,支持 Windows、macOS 和 Ubuntu:

  • 自动录制屏幕视频;
  • 捕获鼠标/键盘事件;
  • 提取无障碍树(Axtree)结构,便于模型理解界面语义;
  • 支持后台运行,不影响用户正常工作。

该工具使非技术用户也能自然地完成任务演示,极大提升了数据采集效率与真实性。

2. AgentNet:大规模真实任务数据集

基于 AgentNetTool,团队构建了 AgentNet ——目前最大规模的计算机使用任务数据集:

指标数据
任务数量22.5K
操作系统Windows (12K), macOS (5K), Ubuntu (5K)
覆盖应用140+ 桌面应用(如 Word、Photoshop)
覆盖网站190+ 网站(如 Gmail、Notion、GitHub)

这些任务高度真实,常见于日常办公、学习与开发场景,例如:

  • “在 Google Docs 中插入表格并共享给同事”
  • “使用 VS Code 打开项目,查找并修改某函数”
  • “在 macOS 上设置定时提醒,并同步到 iPhone”

与以往 GUI 数据集不同,AgentNet 提供的是完整的状态-动作轨迹,而非孤立截图或指令。

3. 反思性长链思考(Reflective Chain-of-Thought)流水线

原始操作记录是“怎么做”,但模型需要知道“为什么这么做”。

为此,团队设计了一套自动化流水线,将原始轨迹转化为包含推理过程的训练样本:

  • 对每一步操作生成“内心独白”式思考(如“当前页面没有搜索框,应切换到顶部导航栏”);
  • 引入“生成器-反思器”机制:先生成推理,再由另一模型验证其合理性;
  • 迭代优化,确保推理与动作一致。

这种方式显著提升了模型在复杂任务中的规划能力。

AgentNetBench:离线评估新标准

传统 CUA 评估依赖真实环境执行,耗时且不稳定。

为此,团队提出 AgentNetBench ——一个离线评估基准,包含从 AgentNet 中精选的 100 个代表性任务,特点包括:

  • 每个任务提供清晰目标与上下文;
  • 每步操作标注多个合法动作选项(因 GUI 操作常有多解);
  • 支持快速、可复现的模型打分,无需实际运行软件。

这为公平比较不同模型提供了统一平台。

OpenCUA 模型:开源也能达到 SOTA

团队在多个视觉-语言模型基础上进行监督微调(SFT),推出系列 OpenCUA 模型:

  • OpenCUA-A3B
  • OpenCUA-Qwen2-7B
  • OpenCUA-7B
  • OpenCUA-32B

其中,OpenCUA-32B 在 OSWorld-Verified 基准测试中表现尤为突出:

指标OpenCUA-32B
平均成功率34.8%
开源模型排名第一(SOTA)
对比 GPT-4o超越 OpenAI CUA

这是首个在主流 CUA 基准上超越闭源系统的开源模型。

此外,OpenCUA-7B 在测试时通过增加推理路径(Pass@N)即可显著提升性能,显示出强大的扩展潜力。

泛化能力与测试时计算优势

研究还发现:

  • 模型在未见应用和跨操作系统任务中表现稳定,具备良好泛化性;
  • 随着训练数据规模增加,性能持续提升,验证了数据驱动的有效性;
  • 在测试阶段引入更多候选路径(test-time scaling),可进一步提升成功率,说明模型具备“深思熟虑”的能力。

与 OSWorld-Verified 的关系

OpenCUA 使用 OSWorld-Verified 作为主要评估基准。该基准由 OSWorld 团队对原始 OSWorld 任务进行全面审查与修复,解决了过时依赖、评估错误和指令模糊等问题,是当前最可靠的 CUA 测试环境之一。

团队在此特别致谢 OSWorld 团队的工程贡献。

© 版权声明

相关文章

暂无评论

none
暂无评论...