自动化桌面任务设计的框架COMPUTERRL:通过强化学习提升计算机桌面智能代理的操作能力

新技术4个月前发布 小马良
141 0

清华大学、智谱AI和中国科学院大学的研究人员推出一个名为 COMPUTERRL 的框架,通过强化学习(Reinforcement Learning, RL)提升计算机桌面智能代理(agents)的操作能力,使其能够熟练地在复杂的数字工作空间中执行任务。

COMPUTERRL 是一个为自动化桌面任务设计的框架,它通过结合程序化的 API 调用和直接的 GUI 交互来解决机器代理与人类中心的桌面环境之间的固有不匹配问题。

自动化桌面任务设计的框架COMPUTERRL:通过强化学习提升计算机桌面智能代理的操作能力

例如,它可以在 LibreOffice Calc 中创建一个带有“月份”和“总计”标题的新表格,以显示所有月份的总销售额,或者在文档中将所有大写文本转换为小写,以保持文本的一致性。

主要功能

  • API-GUI 范式:COMPUTERRL 通过结合 API 调用和 GUI 操作,提供了一种更高效的设备交互方式。例如,它可以通过 API 调用来快速完成表格的创建,同时利用 GUI 操作来处理复杂的文档格式化任务。
  • 可扩展的 RL 基础设施:该框架支持数千个并行虚拟桌面环境,加速大规模在线 RL 训练。这使得代理能够在不同的桌面任务中进行广泛的训练,从而提高其泛化能力。
  • Entropulse 训练策略:通过交替进行强化学习和监督微调,有效缓解了长时间训练中的熵崩溃问题,提高了学习效率和最终性能。

主要特点

  • 高效的数据收集和训练:通过自动化 API 构建和大规模并行环境,COMPUTERRL 能够高效地收集训练数据,并在数千个虚拟桌面环境中进行训练。
  • 创新的训练方法:Entropulse 方法通过在 RL 训练中引入监督微调阶段,恢复了模型的探索能力,从而实现了持续的性能提升。
  • 强大的泛化能力:COMPUTERRL 在 OSWorld 基准测试中表现出色,特别是在多应用程序设置中,展示了其在复杂任务中的长距离规划和推理能力。

工作原理

COMPUTERRL 的工作原理基于以下核心组件:

  1. API-GUI 范式:通过结合 API 调用和 GUI 操作,代理能够以更高效的方式与桌面环境交互。
  2. 分布式训练基础设施:利用 Docker 和 gRPC 协议构建的虚拟机集群,支持数千个并行环境,确保训练的高可扩展性。
  3. Entropulse 训练策略:通过交替进行 RL 和监督微调,该策略在训练过程中维持了模型的探索能力,从而实现了持续的性能提升。

测试结果

在 OSWorld 基准测试中,基于 GLM-4-9B-0414 的 AUTOGLM-OS 实现了 48.1% 的准确率,比其他最先进的模型(如 OpenAI CUA o3 和 UI-TARS-1.5)有显著提升。这表明 COMPUTERRL 在桌面自动化任务中具有显著的优势,尤其是在需要复杂推理和长距离规划的任务中。

应用场景

COMPUTERRL 的应用场景非常广泛,包括但不限于:

  • 自动化办公任务:例如,自动创建和编辑文档、表格和演示文稿。
  • 系统监控和维护:例如,自动生成系统资源使用报告。
  • 多应用程序协调:例如,在多个应用程序之间协调操作,完成复杂的任务。
  • 智能助手:为用户提供个性化的桌面自动化解决方案,提高工作效率。
© 版权声明

相关文章

暂无评论

none
暂无评论...