西湖大学推出一款具备自我进化能力的 GUI 代理AppAgentX

新技术16小时前发布 小马良
10 0

西湖大学 AGI 实验室张驰团队近日推出一款具备自我进化能力的 GUI 代理——AppAgentX,它能够在持续执行任务的过程中不断学习并优化自身行为模式,从而实现更高效的操作,为自动化任务执行带来了全新的可能性。

核心创新:让智能代理学会“进化”

AppAgentX 的进化式图形用户界面(GUI)代理框架,通过从任务执行历史中抽象出高效的操作来提升代理的效率和智能性。它结合了记忆机制和进化机制,能够识别重复的操作序列,并将其替换为高级操作,显著提高任务执行的效率和准确性。

西湖大学推出一款具备自我进化能力的 GUI 代理AppAgentX

例如,在常见的搜索任务中,AppAgentX 可以将一系列低级操作(如点击搜索框、输入文本、点击搜索按钮)抽象为一个高级操作(如“搜索”),从而减少推理步骤并加速任务完成。
AppAgentX 的核心创新之处在于:

自动归纳高效操作模式

代理能够在执行任务时检测重复性操作模式,并自动总结成更高级别的“一键”操作,让复杂的任务变得简单高效。

任务执行更快,减少重复计算

传统 LLM 代理每次执行任务都需要重新思考操作流程,而 AppAgentX 能够记住并复用执行策略,避免重复推理,使得任务执行更加流畅高效。

完全基于视觉操作,适用于各种软件

传统自动化方法通常需要访问后端 API,而 AppAgentX 仅依赖屏幕视觉信息进行操作,无需后端访问,因此能够在不同软件、不同设备上通用,真正做到“即插即用”。

与传统自动化方法的对比

过去,计算机的自动化操作主要依赖 RPA(机器人流程自动化),通过预设规则或 API 进行固定任务的执行。然而,这种方式需要大量手动配置,缺乏灵活性。

GUI 代理的出现改变了这一局面,被誉为软件世界中的具身智能。GUI 代理不依赖后端 API,而是像人类一样,通过屏幕视觉、鼠标和键盘直接操作软件界面。这意味着智能体可以自主学习如何操作各种应用程序,甚至能够在不同软件之间切换,执行复杂的跨应用任务。

例如,在办公场景中,它可以自动整理文档、批量发送邮件;在娱乐与创作领域,可以使用 Photoshop 处理图像、生成视频内容;在自动化操作方面,可以批量录入数据、自动处理订单;还可以执行跨应用任务,如从网页爬取信息后填入 Excel、在多个软件之间进行联动操作。

正因如此,GUI 代理被视为智能助手、数字员工、自动化测试等领域的下一代解决方案。但现阶段的挑战也很突出:现有的智能体聪明但不够高效。现有的 LLM 代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次执行操作前,模型都要推理下一步动作。这种方式虽然赋予了智能体极强的泛化能力,使其能够适应新任务场景,但也带来了执行低效、重复计算严重的问题。而 AppAgentX 的核心思路,就是让智能体学会“进化”,解决这一痛点。

工作原理

记忆机制

  • 页面和元素节点:将代理与 GUI 的交互建模为页面节点和元素节点,记录页面描述、元素信息和操作细节。
  • 特征提取和描述生成:利用 LLM 生成页面和元素的功能描述,基于操作序列的上下文生成详细的功能描述。
  • 描述合并:对于重复生成的页面描述,通过 LLM 合并生成统一的描述,确保记录的完整性和一致性。

进化机制

  • 高级操作生成:分析任务执行历史,识别重复的操作序列,并生成高级操作(如“搜索”或“更改主题”)。
  • 行动空间扩展:将高级操作集成到代理的行动空间中,允许代理在执行任务时选择更高效的高级操作。
  • 动态匹配和执行:在任务执行过程中,代理通过匹配页面元素与记忆中的高级操作,动态选择和执行高级操作,减少推理步骤。

任务执行

  • 页面匹配:代理捕获当前页面的截图,并与记忆中的页面节点进行匹配。
  • 高级操作执行:如果匹配到高级操作,代理直接执行该操作,否则选择低级操作进行任务执行。
  • 效率提升:通过减少重复推理步骤,显著提升任务执行效率。
© 版权声明

相关文章

暂无评论

none
暂无评论...