用于复杂任务自动化的分层多智能体协作框架PC-Agent:专门针对个人电脑(PC)场景设计

新技术2天前发布 小马良
23 0

中国科学院自动化研究所自动化智能系统研究所、中国科学院大学人工智能学院、阿里巴巴集团、北京交通大学和上海科技大学信息科学与技术学院的研究人员推出PC-Agent,这是一个用于复杂任务自动化的分层多智能体协作框架,专门针对个人电脑(PC)场景设计。PC-Agent通过增强感知能力和分层决策机制,解决了PC环境中复杂的交互环境和任务序列问题,显著提升了任务的成功率。

在智能手机上,任务通常较为简单,如打开应用或发送消息。然而,在PC上,任务往往更加复杂,涉及多个应用程序之间的交互和长操作序列。例如,一个典型的任务可能是:“在Outlook中查看发送给Howie的旅行计划,使用Chrome搜索这些目的地的旅游景点,创建一个新的Word文档介绍每个目的地的旅游景点,并在计算器中计算1.8与起始日期之间的间隔。” 这种任务不仅涉及多个应用程序之间的切换,还需要对屏幕上的复杂元素进行精确操作。

用于复杂任务自动化的分层多智能体协作框架PC-Agent:专门针对个人电脑(PC)场景设计

主要功能

  1. 复杂任务自动化:PC-Agent能够自动完成涉及多个应用程序和复杂操作序列的任务。
  2. 分层决策:通过将决策过程分解为指令、子任务和动作三个层次,简化复杂任务的执行。
  3. 动态调整:通过反射机制,实时检测执行中的错误并进行调整。
  4. 精细感知与操作:通过主动感知模块(APM),实现对屏幕元素和文本的精确感知和操作。

主要特点

  1. 主动感知模块(APM):通过结合可访问性树(A11y Tree)和OCR技术,实现对交互元素和文本的精确感知。
  2. 分层多智能体协作:通过管理智能体(Manager Agent)、进度智能体(Progress Agent)和决策智能体(Decision Agent)的协作,有效处理复杂任务。
  3. 反射机制:通过反射智能体(Reflection Agent)检测执行结果的正确性,并提供及时反馈。
  4. 复杂任务基准(PC-Eval):提出了一个新的基准测试,包含25个复杂的真实世界任务,用于评估智能体在PC环境中的表现。

工作原理

PC-Agent的工作原理可以分为以下几个关键步骤:

  1. 感知阶段:APM模块通过可访问性树获取交互元素的位置和功能信息,并通过OCR技术获取文本内容和位置。
  2. 决策阶段:管理智能体将用户指令分解为多个子任务,并管理子任务之间的通信。进度智能体跟踪每个子任务的执行进度,决策智能体根据感知信息和进度信息逐步做出决策。
  3. 执行阶段:决策智能体生成具体的操作指令(如点击、输入等),并通过反射智能体检测执行结果的正确性。如果发现错误,反射智能体会提供反馈,决策智能体根据反馈调整后续操作。
  4. 动态调整:反射智能体通过比较操作前后的屏幕截图,判断操作是否成功执行,并将反馈传递给决策智能体和进度智能体,以便进行动态调整。

应用场景

  1. 办公自动化:自动完成复杂的文档编辑、数据处理和信息检索任务,提高工作效率。
  2. 任务调度:在多个应用程序之间切换,完成涉及多个步骤的任务,如旅行计划的制定。
  3. 信息检索与整理:自动搜索信息并将其整理到文档或表格中,减少人工操作。
  4. 智能助手:作为个人智能助手,根据用户的指令自动完成任务,如设置提醒、计算日期间隔等。
© 版权声明

相关文章

暂无评论

none
暂无评论...