阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的 通用 GUI(图形用户界面)智能体基座模型系列,涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 ScreenSpot-Pro GUI 定位基准上以 73.5% 的准确率超越 Gemini-3-Pro,成为当前该任务的 SOTA(最先进水平)。

更重要的是,MAI-UI 首次将 用户交互、MCP 工具调用、端云协同 三大能力原生集成于统一架构,直面 GUI 智能体落地的四大核心挑战:

  1. 缺乏主动澄清机制(指令模糊时盲目执行)
  2. 纯 UI 操作效率低、易失败
  3. 无实用部署架构(全云 or 全端均不现实)
  4. 真实环境干扰多(弹窗、网络延迟、UI 变化)
阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

核心能力:不只是“看图点按”

1. 原生用户交互:拒绝臆测,主动澄清

当指令不完整或存在歧义时,MAI-UI 会主动提问,确保执行路径与用户真实意图一致,并将澄清信息纳入任务记忆。

示例:
用户指令:“下载简历并发送给同事”
MAI-UI 会追问:“应以附件形式发送,还是复制文本内容?”

这避免了传统智能体因“幻觉”导致的错误操作(如误删文件、发错收件人)。

2. MCP 工具调用:跳过繁琐 UI,直连服务

MAI-UI 可调用 MCP(Model-Callable Protocols) 工具(如地图 API、GitHub、日历等),绕过界面点击,直接完成高阶任务。

示例:
“比较两套公寓到阿里西溪园区的开车时间,并将较近的地址发给 Mia”
→ MAI-UI 调用地图 API 获取时间,通过通讯工具发送结果,无需模拟打开地图 App、输入地址、截图等冗余操作

3. 端云协同架构:兼顾隐私、性能与成本

  • 日常任务:由 2B 小模型常驻手机本地 处理(如打开文件、切换设置)
  • 复杂/卡壳任务:若不涉及敏感信息,自动路由至 云端 32B/235B 模型 执行
  • 效果
    • 设备端任务成功率提升 33%
    • 云端 API 调用减少 超 40%
    • 敏感操作(如支付、密码)始终保留在本地

这是首个将“隐私优先”与“大模型能力”结合的实用化 GUI 智能体架构。

4. 抗干扰与自纠正:适应真实环境

MAI-UI 能应对移动设备中常见的干扰:

  • 突发弹窗(通知、系统更新)
  • 网络延迟导致的 UI 加载失败
  • 应用版本更新引起的界面变化

通过在线强化学习轨迹监控机制,模型可动态调整执行策略,确保任务连贯完成。

基准测试表现

GUI 定位(将指令映射到屏幕坐标)

数据集MAI-UI-32B对比模型
ScreenSpot-Pro73.5%Gemini-3-Pro、Seed1.8(更低)
MMBench GUI L291.3%
OSWorld-G70.9%
UI-Vision49.2%

移动端导航(多步任务完成率)

数据集MAI-UI-235B-A22B对比模型
AndroidWorld76.7%UI-Tars-2、Gemini-2.5-Pro、Seed1.8
MobileWorld41.7%显著优于纯端到端模型

在线强化学习增益

  • 并行环境从 32 → 512:+5.2% 性能提升
  • 环境步数从 15 → 50:+4.3% 提升
阿里通义开源 MAI-UI:32B 模型 GUI 定位超 Gemini-3-Pro,端云协同重构智能体交互

技术实现

  • 自进化数据管道:融合 用户交互日志 + MCP 工具调用轨迹 + UI 操作序列,生成高质量训练数据
  • 在线强化学习框架:在虚拟 Android 环境中进行大规模交互训练,支持长上下文(50 步)与高并发(512 环境)
  • 设备-云协作代理
    • 本地代理:运行 2B 模型,监控任务轨迹
    • 云端代理:处理复杂子任务(仅当非敏感且本地失败时触发)

应用场景

  • 个人效率:自动完成文件整理、表单填写、跨 App 数据传递
  • 企业自动化:HR 批量处理入职材料、客服自动查单
  • 智能助手增强:为 Siri/小爱同学等提供 GUI 操作能力
  • 教育辅助:引导学生完成软件操作任务(如 Excel、CAD)
  • 无障碍支持:帮助视障或行动不便用户操作手机

开源与部署

  • 已开源:2B 与 8B 模型(GitHub 链接
  • 后续计划:32B 模型将逐步开放,235B-A22B 用于云端服务
  • 部署灵活:支持纯本地(2B)、混合部署(2B+32B)、全云(32B+)
© 版权声明

相关文章

暂无评论

none
暂无评论...