Salesforce 推出 CoAct-1：能写代码的智能体，让自动化迈入新阶段

大语言模型7个月前发布小马良

158 0

在AI智能体普遍还在“点击屏幕”完成任务的今天，Salesforce 与南加州大学联合研发的 CoAct-1 正在打破这一局限。这款新型计算机操作智能体不仅能识别界面、模拟鼠标点击，更能在任务执行过程中编写并运行代码，将编程的精确性与GUI操作的通用性深度融合。

项目主页：https://linxins.net/coact
GitHub：https://github.com/xlang-ai/OSWorld/tree/main/mm_agents/coact

这一突破意味着：AI不再只是“模仿人类操作”，而是能“像工程师一样思考”，选择最高效的方式完成任务——该用脚本时绝不点鼠标，该点按钮时也不硬写代码。

Salesforce 推出 CoAct-1：能写代码的智能体，让自动化迈入新阶段

点击式智能体的瓶颈：脆弱、易错、效率低

当前主流的GUI智能体依赖视觉语言模型（VLM）感知屏幕，通过预测按钮位置来执行点击、输入等操作。这类系统虽能处理多种任务，但在复杂工作流中暴露明显短板：

视觉定位模糊：难以区分外观相似的图标或菜单项；
错误累积严重：一次误点击可能导致后续步骤全部失效；
效率低下：一个本可用几行代码完成的操作（如批量重命名文件），却需数十次精确点击。

即便引入高级规划模型（如OpenAI o3），将任务拆解为子步骤，也无法从根本上解决“靠点鼠标完成一切”的脆弱性。

CoAct-1：三位智能体的协作团队

CoAct-1 的核心创新在于任务分工机制。系统由三个智能体协同工作，各司其职：

调度员（Orchestrator）
负责理解用户目标，拆解任务，并动态分配给最适合的执行者。
程序员（Programmer）
专司代码生成。对于文件处理、数据转换、批量操作等任务，它会生成 Python 或 Bash 脚本，在安全沙盒中执行，确保高效且可复现。
GUI 操作员（GUI Operator）
处理必须通过界面完成的操作，如填写表单、点击弹窗、导航无API支持的遗留系统。

工作流程采用迭代反馈机制：每完成一个子任务，执行者会向调度员返回结果摘要与截图，由调度员判断下一步动作或确认任务完成。

Salesforce 推出 CoAct-1：能写代码的智能体，让自动化迈入新阶段

这种设计让 CoAct-1 能“策略性地规避低效的GUI操作”，在适当时机切换为代码执行，既保留了对图形界面的兼容性，又大幅提升了任务的稳健性与效率。

实测表现：成功率与效率双提升

在包含 369 项真实任务的 OSWorld 基准测试中，CoAct-1 以 60.76% 的成功率创下新高，显著优于纯GUI智能体（如 GTA-1）。

更关键的是效率提升：

CoAct-1 平均仅需 10.15 步完成任务；
对比之下，GTA-1 需要 15.22 步；
即使某些系统步数更少（如虚构的CUA 4o），其成功率也远低于 CoAct-1。

以“在深层文件夹中查找图片→批量缩放→压缩打包”为例：传统智能体需逐层点击、拖拽、选择，每一步都可能失败；而 CoAct-1 可将整个流程交给程序员智能体，用一段健壮脚本一键完成。

研究团队指出：“操作步骤越多，失败率越高。将多个GUI步骤压缩为单次编程任务，是提升成功率的关键。”

Salesforce 推出 CoAct-1：能写代码的智能体，让自动化迈入新阶段

从实验室走向企业：适配混合工具环境

CoAct-1 的真正价值在于应对现实世界的复杂性。在企业环境中，许多关键流程涉及多个无API接口的系统，例如：

客服人员需在 Salesforce、医疗系统 EPIC 和内部工具间切换；
财务人员要从邮件提取发票，录入ERP，再生成报表；
市场团队需整合多平台数据，生成个性化营销素材。

这些“混合操作流”正是 CoAct-1 的用武之地。Salesforce 应用人工智能研究总监徐冉表示：“我们的技术能让智能体灵活调用 API、执行代码或操作界面元素，完美适配这种碎片化环境。”

高价值场景包括：大规模客户开发、自动化簿记、客户细分与活动策划等。

挑战与边界：安全、监督与人类角色

尽管表现优异，CoAct-1 在实际部署中仍面临挑战：

决策可靠性：调度员需准确判断何时该用代码、何时必须点击界面，尤其在面对陌生或定制化UI时；
代码安全风险：程序员智能体的执行权限必须严格限制在沙盒环境中，防止恶意操作；
模糊指令处理：对于不明确的用户请求，系统仍需人类介入澄清。

徐冉强调：“必须由人类理解潜在影响并授权AI访问权限。”他建议采用渐进式部署：初期在人类监督下运行，关键操作保留人工审批，逐步建立信任。

大语言模型 # CoAct-1 # 智能体

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OpenAI 发布 GPT-5：更智能、更诚实、更实用的统一模型

OpenAI 发布 GPT-5：更智能、更诚实、更实用的统一模型

大语言模型 # GPT-5 # OpenAI

7个月前

03470

阿里推出高效的长上下文压缩框架QwenLong-CPRS

阿里推出高效的长上下文压缩框架QwenLong-CPRS

大语言模型 # QwenLong-CPRS # QwenLong-CPRS-7B

10个月前

06140

字节跳动发布UI-TARS-2：一个面向真实GUI交互的原生代理模型

字节跳动发布UI-TARS-2：一个面向真实GUI交互的原生代理模型

大语言模型 # UI-TARS-2

7个月前

01640

Helcyon-Mercury-12B-v3.0：基于 Mistral Nemo 的高情感智能对话模型

Helcyon-Mercury-12B-v3.0：基于 Mistral Nemo 的高情感智能对话模型

大语言模型 # Helcyon-Mercury-12B-v3.0

1个月前

0250

暂无评论

none

暂无评论...