Salesforce 推出 CoAct-1:能写代码的智能体,让自动化迈入新阶段

大语言模型4个月前发布 小马良
148 0

在AI智能体普遍还在“点击屏幕”完成任务的今天,Salesforce 与南加州大学联合研发的 CoAct-1 正在打破这一局限。这款新型计算机操作智能体不仅能识别界面、模拟鼠标点击,更能在任务执行过程中编写并运行代码,将编程的精确性与GUI操作的通用性深度融合。

这一突破意味着:AI不再只是“模仿人类操作”,而是能“像工程师一样思考”,选择最高效的方式完成任务——该用脚本时绝不点鼠标,该点按钮时也不硬写代码。

Salesforce 推出 CoAct-1:能写代码的智能体,让自动化迈入新阶段

点击式智能体的瓶颈:脆弱、易错、效率低

当前主流的GUI智能体依赖视觉语言模型(VLM)感知屏幕,通过预测按钮位置来执行点击、输入等操作。这类系统虽能处理多种任务,但在复杂工作流中暴露明显短板:

  • 视觉定位模糊:难以区分外观相似的图标或菜单项;
  • 错误累积严重:一次误点击可能导致后续步骤全部失效;
  • 效率低下:一个本可用几行代码完成的操作(如批量重命名文件),却需数十次精确点击。

即便引入高级规划模型(如OpenAI o3),将任务拆解为子步骤,也无法从根本上解决“靠点鼠标完成一切”的脆弱性。

CoAct-1:三位智能体的协作团队

CoAct-1 的核心创新在于任务分工机制。系统由三个智能体协同工作,各司其职:

  1. 调度员(Orchestrator)
    负责理解用户目标,拆解任务,并动态分配给最适合的执行者。
  2. 程序员(Programmer)
    专司代码生成。对于文件处理、数据转换、批量操作等任务,它会生成 Python 或 Bash 脚本,在安全沙盒中执行,确保高效且可复现。
  3. GUI 操作员(GUI Operator)
    处理必须通过界面完成的操作,如填写表单、点击弹窗、导航无API支持的遗留系统。

工作流程采用迭代反馈机制:每完成一个子任务,执行者会向调度员返回结果摘要与截图,由调度员判断下一步动作或确认任务完成。

Salesforce 推出 CoAct-1:能写代码的智能体,让自动化迈入新阶段

这种设计让 CoAct-1 能“策略性地规避低效的GUI操作”,在适当时机切换为代码执行,既保留了对图形界面的兼容性,又大幅提升了任务的稳健性与效率。

实测表现:成功率与效率双提升

在包含 369 项真实任务的 OSWorld 基准测试中,CoAct-1 以 60.76% 的成功率创下新高,显著优于纯GUI智能体(如 GTA-1)。

更关键的是效率提升

  • CoAct-1 平均仅需 10.15 步完成任务;
  • 对比之下,GTA-1 需要 15.22 步
  • 即使某些系统步数更少(如虚构的CUA 4o),其成功率也远低于 CoAct-1。

以“在深层文件夹中查找图片→批量缩放→压缩打包”为例:传统智能体需逐层点击、拖拽、选择,每一步都可能失败;而 CoAct-1 可将整个流程交给程序员智能体,用一段健壮脚本一键完成。

研究团队指出:“操作步骤越多,失败率越高。将多个GUI步骤压缩为单次编程任务,是提升成功率的关键。”

Salesforce 推出 CoAct-1:能写代码的智能体,让自动化迈入新阶段

从实验室走向企业:适配混合工具环境

CoAct-1 的真正价值在于应对现实世界的复杂性。在企业环境中,许多关键流程涉及多个无API接口的系统,例如:

  • 客服人员需在 Salesforce、医疗系统 EPIC 和内部工具间切换;
  • 财务人员要从邮件提取发票,录入ERP,再生成报表;
  • 市场团队需整合多平台数据,生成个性化营销素材。

这些“混合操作流”正是 CoAct-1 的用武之地。Salesforce 应用人工智能研究总监徐冉表示:“我们的技术能让智能体灵活调用 API、执行代码或操作界面元素,完美适配这种碎片化环境。”

高价值场景包括:大规模客户开发、自动化簿记、客户细分与活动策划等。

挑战与边界:安全、监督与人类角色

尽管表现优异,CoAct-1 在实际部署中仍面临挑战:

  • 决策可靠性:调度员需准确判断何时该用代码、何时必须点击界面,尤其在面对陌生或定制化UI时;
  • 代码安全风险:程序员智能体的执行权限必须严格限制在沙盒环境中,防止恶意操作;
  • 模糊指令处理:对于不明确的用户请求,系统仍需人类介入澄清。

徐冉强调:“必须由人类理解潜在影响并授权AI访问权限。”他建议采用渐进式部署:初期在人类监督下运行,关键操作保留人工审批,逐步建立信任。

© 版权声明

相关文章

暂无评论

none
暂无评论...