Agent S

8个月前发布 324 00

Agent S是一个通过 Agent-Computer Interface 实现计算机自主交互的开源框架。我们的使命是构建能通过历史经验学习、在计算机上自主执行复杂任务的智能 GUI 代理系统。

所在地：

美国

收录时间：

2025-08-02

其他站点:

官网

打开网站手机查看

Agent S

打开网站

让 AI 真正“会用电脑”，依然是通往通用智能的重要挑战之一。

这不仅意味着理解自然语言指令，还要能在复杂的图形界面中完成操作——比如打开浏览器搜索信息、填写表格、操作 Excel，甚至在从未见过的应用中完成任务。这类任务空间庞大、噪声多、状态高度动态，对当前的 AI 系统提出了严峻考验。

Simular Research近期发布了 Agent S2 ，介绍这一在多个计算机使用基准测试中达到领先性能的模块化代理框架。此前两周，Agent S2 已经开源；现在，随着论文公开，我们希望系统性地分享其设计思想与核心技术。

核心理念：通才与专才协同工作

Agent S2 的设计基于一个简单但有效的原则：将复杂问题拆解为专业化子任务，由不同角色协同完成。

人类操作电脑时，通常会分层思考：

高层：决定“我要做什么”；
中层：规划“分几步做”；
底层：执行“点击哪里、输入什么”。

Agent S2 模拟了这种协作模式，构建了一个通才-专才混合架构：

通才模块（Generalist） 负责任务理解与高层规划；
专才模块（Specialists） 各司其职，分别处理视觉识别、文本解析、结构分析、动作执行等具体任务。

这种模块化设计不仅提升了系统的灵活性和鲁棒性，也便于独立优化各个组件。

关键技术：混合定位 + 主动层次规划

1. 混合定位机制（Mixture of Grounders, MoG）

GUI 元素的精确定位是计算机使用代理的关键瓶颈。传统方法常依赖单一模型完成从图像到坐标的端到端映射，容易因界面变化或视觉干扰而失效。

Agent S2 引入 混合定位（MoG），集成三种定位专家：

视觉专家：擅长识别按钮、图标等外观特征明显的元素；
文本专家：通过 OCR 和语义匹配，快速定位含特定文字的控件；
结构专家：利用 DOM 或 UI 树结构关系，理解元素层级与功能角色。

系统根据当前上下文动态路由请求至最合适的专家。例如，在电子表格场景优先调用结构专家，在网页按钮点击任务中则启用视觉专家。

这种“解耦”策略将原本复杂的联合推理问题，转化为两个相对独立的过程：“做什么”由通才决定，“在哪做”由专才解决。

2. 主动层次规划（Proactive Hierarchical Planning, PHP）

许多代理失败的原因并非不会执行动作，而是规划过于静态——一旦生成计划就不再调整，无法应对界面跳转、加载延迟或操作失败等情况。

Agent S2 采用 主动层次规划（PHP），实现动态计划管理：

将任务分解为多级子目标；
每步执行后重新评估环境状态；
若观察结果偏离预期，则主动修正后续步骤，甚至回溯至上层目标。

这一机制使得 Agent 能在面对弹窗、权限提示或网络延迟时自主恢复，表现出更强的容错能力。

性能表现：跨平台领先

我们在多个公开基准上验证了 Agent S2 的有效性：

基准测试	相比之前最优提升
OSWorld	新 SOTA
WindowsAgentArena	+52.8%
AndroidWorld	+16.5%

特别是在 OSWorld 上，Agent S2 在包括文件管理、浏览器操作、邮件处理等多样化任务中均显著优于现有方法。

值得注意的是，这些测试涵盖了真实操作系统环境（如 Linux 桌面），而非简化模拟器，进一步体现了其实用价值。

扩展性与错误恢复能力

在长周期任务中，单一模型往往因记忆衰减或误差累积而失效。Agent S2 的模块化结构天然支持：

状态隔离：各模块维护局部上下文，减少干扰；
即时反馈闭环：每一步操作后都进行状态校验；
自适应重试机制：当某动作未达预期效果时，自动尝试替代路径或重新规划。

例如，在一次“下载文件并重命名”的任务中，若系统检测到文件未出现在预期目录，会主动检查下载路径、等待加载完成，再继续后续操作。

跨平台泛化：从桌面到移动端

尽管 Agent S2 主要面向桌面环境设计，但其核心架构具备良好的跨平台适应性。

在 AndroidWorld 基准测试中，仅通过少量适配，Agent S2 即实现了比先前最优模型高出 16.5% 的任务完成率。这表明，模块化设计有助于知识迁移与平台迁移，为未来统一的跨设备代理系统提供了可行路径。

模块化是通往稳健性的关键

Agent S2 的实践表明：

组合式架构 不仅是一种工程选择，更是提升系统鲁棒性和可维护性的必要路径；
将定位与规划解耦，能更好地匹配现有模型的能力分布；
动态、反馈驱动的规划机制，显著增强了代理在真实环境中的适应能力。

这项工作不仅推动了计算机使用代理的发展，也为多模态推理、任务规划与人机交互研究提供了新的思路。

我们相信，通向真正能“使用工具”的 AI，不在于更大规模的端到端模型，而在于更合理的分工与协作机制。

数据统计

暂无评论

暂无评论...