阿里通义实验室推出 Mobile-Agent-v3 框架：为图形用户界面（GUI）任务的自动化带来了全新的解决方案

1,095 0

在当今数字化时代，自动化技术的发展日新月异。阿里通义实验室作为行业内的创新先锋，于近期推出了令人瞩目的Mobile-Agent-v3框架，为图形用户界面（GUI）任务的自动化带来了全新的解决方案。

GitHub：https://github.com/X-PLUG/MobileAgent
模型：https://huggingface.co/collections/mPLUG/gui-owl-68a563a2fca8f601c9b53f00

该框架基于GUI-Owl基础模型构建，融合了多模态感知、推理、规划以及动作执行等多种关键能力，能够在移动设备和桌面计算机等多种环境中高效实现GUI自动化，极大地提升了任务执行的效率与便捷性。

阿里通义实验室推出 Mobile-Agent-v3 框架：为图形用户界面（GUI）任务的自动化带来了全新的解决方案

Mobile-Agent-v3框架：跨平台GUI自动化的得力助手

Mobile-Agent-v3是一款专为GUI任务自动化打造的框架，依托GUI-Owl模型，它具备在多种设备上执行任务的卓越能力。无论是在移动设备上预订外卖这样涉及多个页面跳转、信息填写的复杂流程，还是在桌面环境中处理文档时的格式调整、内容编辑等操作，Mobile-Agent-v3都能轻松应对。

为了提升模型性能，该框架借助大规模的环境基础设施，利用云技术构建起支持多种操作系统的虚拟环境，从而生成丰富多样的交互数据。同时，通过自进化轨迹生成框架，自动对交互轨迹进行评估与优化，减少了对人工标注的依赖，持续提升数据质量，让模型在学习过程中不断进化。

GUI-Owl模型：多模态跨平台的智能核心

GUI-Owl作为多模态跨平台GUI虚拟层模型（VLM），堪称Mobile-Agent-v3框架的智慧核心。它在7B参数规模下便实现了SOTA（state-of-the-art，即当前最优）结果，是原生的端到端多模态代理，专为GUI自动化而生。

在GUI-Owl的单一策略网络中，巧妙地将感知、基础、推理、规划和动作执行等功能统一起来。这使得它不仅拥有强大的跨平台交互能力，能够无缝对接移动设备（如Android系统）、桌面计算机（包括Windows、macOS、Linux系统）以及网页环境，还擅长处理多轮决策任务，并且具备明确的中间推理功能，在面对复杂操作时能够有条不紊地规划执行步骤。在Mobile-Agent-v3中，GUI-Owl可以实例化为不同的专用智能体，各司其职，协同完成各类任务。

Mobile-Agent-v3框架的主要功能

1. 多平台支持，打破设备壁垒

Mobile-Agent-v3对多种平台的全面支持，让用户无论使用何种设备，都能享受到高效的GUI自动化服务。无论是在出门在外时通过手机处理事务，还是在办公室利用桌面电脑完成工作，该框架都能精准适配，为用户提供一致且流畅的操作体验。

2. 自进化轨迹生成，优化任务执行路径

自进化轨迹生成框架是Mobile-Agent-v3的一大亮点。通过模型自身的评估与优化机制，它能够持续改进交互轨迹的质量。在执行任务过程中，模型会不断分析已有的操作路径，自动识别出更优的执行方式，从而减少不必要的操作步骤，提高任务完成的效率和准确性。例如，在多次预订外卖的过程中，模型会逐渐优化从打开外卖应用、选择商家、挑选菜品到下单支付的整个流程，让后续的预订操作更加快捷。

3. 多智能体协作，攻克复杂任务

在Mobile-Agent-v3框架下，多个智能体能够紧密协作，共同应对复杂任务。每个智能体被赋予不同的角色和任务，它们之间通过明确的分工与高效的协作，提升了复杂任务的执行效率。以在移动设备上规划一次旅行安排为例，一个智能体负责在地图应用中查找目的地及周边景点，另一个智能体在酒店预订应用中筛选合适的住宿，还有智能体负责在交通票务应用中查询并预订车票或机票，最后各个智能体将收集到的信息整合，为用户生成完整的旅行计划。

4. 强化学习，提升决策能力

借助轨迹感知的相对策略优化（TRPO）技术，Mobile-Agent-v3能够在在线环境中进行强化学习。通过给予模型轨迹级奖励，激励其在长序列任务中不断改进决策。比如在处理一系列文档编辑任务时，模型会根据每一步操作所带来的结果反馈，调整后续的决策策略，使得最终的文档处理结果更符合用户预期，在不断尝试与学习中，模型的决策能力得以逐步提升。

Mobile-Agent-v3框架的主要特点

1. 大规模环境基础设施，提供丰富数据支撑

利用云技术构建的大规模虚拟环境，能够模拟出多样化的设备和软件环境，为Mobile-Agent-v3生成海量且丰富的交互数据。这些数据涵盖了各种操作系统、应用程序以及用户操作场景，为模型的训练与优化提供了坚实的数据基础，让模型能够学习到更广泛、更全面的操作模式和应对策略。

2. 自进化轨迹生成，持续提升任务执行质量

如前文所述，自进化轨迹生成这一特点并非一次性的优化，而是一个持续的过程。随着模型不断接触新的任务和数据，其对交互轨迹的评估和优化也在不断深入，从而使任务执行质量得到持续提升，能够更好地适应日益复杂多变的用户需求和应用场景。

3. 多智能体协作能力，高效应对复杂场景

多智能体之间的协作并非简单的任务分配，而是基于智能体各自的优势和特点，形成有机的协同体系。它们在复杂场景中能够相互配合、信息共享，避免重复劳动和错误决策，极大地提高了整个框架在处理复杂任务时的成功率和效率，为用户解决实际问题提供了有力保障。

4. 强化学习框架，适应动态任务需求

强化学习框架使得Mobile-Agent-v3能够在动态变化的在线环境中不断进化。无论是面对新出现的应用程序，还是用户提出的特殊操作要求，模型都能通过强化学习，快速调整自身策略，适应新的任务需求，展现出强大的灵活性和适应性。

Mobile-Agent-v3的工作原理

1. 自进化轨迹生成框架驱动任务优化

自进化轨迹生成框架在Mobile-Agent-v3的工作流程中起着关键的优化作用。当模型接收到用户的任务指令后，首先会基于已有的知识和经验生成初始的交互轨迹。在执行任务过程中，框架会实时监控任务执行情况，收集相关数据，并依据特定的评估指标对当前的交互轨迹进行评估。如果发现当前轨迹并非最优，框架会自动触发优化机制，通过调整模型参数或改变操作顺序等方式，生成更优的交互轨迹，确保任务能够以最高效的方式完成。

2. 多智能体协作实现任务分解与执行

在面对复杂任务时，多智能体协作机制开始发挥作用。Mobile-Agent-v3会根据任务的性质和特点，将其分解为多个子任务，并分配给不同的智能体。每个智能体利用自身所具备的特定能力和知识，独立完成各自负责的子任务。例如，在处理一个涉及数据分析和报告生成的桌面任务时，负责数据处理的智能体先对原始数据进行清洗、分析，然后将处理后的数据传递给负责文档编辑的智能体，由其生成报告文档。各个智能体在完成子任务的过程中，会实时与其他智能体进行信息交互，确保整个任务的执行过程协调一致。

3. 强化学习助力长序列任务决策

在长序列任务执行过程中，强化学习机制为Mobile-Agent-v3提供了有力的决策支持。模型在每执行一步操作后，都会根据环境反馈获得一个奖励信号，这个奖励信号反映了该操作对完成最终任务的贡献程度。模型通过不断调整自身的策略，试图最大化长期累积奖励。比如在一个需要连续操作多个应用程序完成项目策划的任务中，模型会根据每一次操作后所获得的奖励（如是否成功获取关键信息、操作是否符合项目逻辑等），学习到在不同状态下应该采取的最优行动，从而在后续遇到类似任务时，能够做出更合理、更高效的决策。

测试结果彰显卓越性能

为了验证GUI-Owl和Mobile-Agent-v3的性能，研究团队在多个基准测试中进行了严格测试，结果令人惊艳：

在ScreenSpot-V2测试中，涵盖移动、桌面和网页环境，GUI-Owl-7B的平均得分高达92.8，大幅领先于其他模型，充分证明了其在多平台环境下对GUI元素的精准感知与操作能力。
OSWorld-G测试专注于评估模型的UI理解和单步决策能力，GUI-Owl-7B取得了86.9的高分，GUI-Owl-32B更是达到了90.9，展现出强大的理解与决策水平。
在AndroidWorld和OSWorld的在线环境测试中，Mobile-Agent-v3分别获得了73.3和37.7的得分，显著优于其他对比模型，突出了其在实际在线应用场景中的高效性与稳定性。

阿里通义实验室推出的Mobile-Agent-v3框架，凭借其创新的架构设计、强大的功能特性以及卓越的性能表现，为GUI自动化领域树立了新的标杆。随着该框架在更多场景中的应用与推广，有望为广大用户带来更加便捷、高效的数字化体验，推动各行业在数字化转型进程中迈出坚实的步伐。