阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的 通用 GUI(图形用户界面)智能体基座模型系列,涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 ScreenSpot-Pro GUI 定位基准上以 73.5% 的准确率超越 Gemini-3-Pro,成为当前该任务的 SOTA(最先进水平)。
- 项目主页:https://tongyi-mai.github.io/MAI-UI/
- GitHub:https://github.com/Tongyi-MAI/MAI-UI
- 模型:https://huggingface.co/Tongyi-MAI
更重要的是,MAI-UI 首次将 用户交互、MCP 工具调用、端云协同 三大能力原生集成于统一架构,直面 GUI 智能体落地的四大核心挑战:
- 缺乏主动澄清机制(指令模糊时盲目执行)
- 纯 UI 操作效率低、易失败
- 无实用部署架构(全云 or 全端均不现实)
- 真实环境干扰多(弹窗、网络延迟、UI 变化)

核心能力:不只是“看图点按”
1. 原生用户交互:拒绝臆测,主动澄清
当指令不完整或存在歧义时,MAI-UI 会主动提问,确保执行路径与用户真实意图一致,并将澄清信息纳入任务记忆。
示例:
用户指令:“下载简历并发送给同事”
MAI-UI 会追问:“应以附件形式发送,还是复制文本内容?”
这避免了传统智能体因“幻觉”导致的错误操作(如误删文件、发错收件人)。
2. MCP 工具调用:跳过繁琐 UI,直连服务
MAI-UI 可调用 MCP(Model-Callable Protocols) 工具(如地图 API、GitHub、日历等),绕过界面点击,直接完成高阶任务。
示例:
“比较两套公寓到阿里西溪园区的开车时间,并将较近的地址发给 Mia”
→ MAI-UI 调用地图 API 获取时间,通过通讯工具发送结果,无需模拟打开地图 App、输入地址、截图等冗余操作。
3. 端云协同架构:兼顾隐私、性能与成本
- 日常任务:由 2B 小模型常驻手机本地 处理(如打开文件、切换设置)
- 复杂/卡壳任务:若不涉及敏感信息,自动路由至 云端 32B/235B 模型 执行
- 效果:
- 设备端任务成功率提升 33%
- 云端 API 调用减少 超 40%
- 敏感操作(如支付、密码)始终保留在本地
这是首个将“隐私优先”与“大模型能力”结合的实用化 GUI 智能体架构。
4. 抗干扰与自纠正:适应真实环境
MAI-UI 能应对移动设备中常见的干扰:
- 突发弹窗(通知、系统更新)
- 网络延迟导致的 UI 加载失败
- 应用版本更新引起的界面变化
通过在线强化学习与轨迹监控机制,模型可动态调整执行策略,确保任务连贯完成。
基准测试表现
GUI 定位(将指令映射到屏幕坐标)
| 数据集 | MAI-UI-32B | 对比模型 |
|---|---|---|
| ScreenSpot-Pro | 73.5% | Gemini-3-Pro、Seed1.8(更低) |
| MMBench GUI L2 | 91.3% | — |
| OSWorld-G | 70.9% | — |
| UI-Vision | 49.2% | — |
移动端导航(多步任务完成率)
| 数据集 | MAI-UI-235B-A22B | 对比模型 |
|---|---|---|
| AndroidWorld | 76.7% | UI-Tars-2、Gemini-2.5-Pro、Seed1.8 |
| MobileWorld | 41.7% | 显著优于纯端到端模型 |
在线强化学习增益
- 并行环境从 32 → 512:+5.2% 性能提升
- 环境步数从 15 → 50:+4.3% 提升

技术实现
- 自进化数据管道:融合 用户交互日志 + MCP 工具调用轨迹 + UI 操作序列,生成高质量训练数据
- 在线强化学习框架:在虚拟 Android 环境中进行大规模交互训练,支持长上下文(50 步)与高并发(512 环境)
- 设备-云协作代理:
- 本地代理:运行 2B 模型,监控任务轨迹
- 云端代理:处理复杂子任务(仅当非敏感且本地失败时触发)
应用场景
- 个人效率:自动完成文件整理、表单填写、跨 App 数据传递
- 企业自动化:HR 批量处理入职材料、客服自动查单
- 智能助手增强:为 Siri/小爱同学等提供 GUI 操作能力
- 教育辅助:引导学生完成软件操作任务(如 Excel、CAD)
- 无障碍支持:帮助视障或行动不便用户操作手机
开源与部署
- 已开源:2B 与 8B 模型(GitHub 链接)
- 后续计划:32B 模型将逐步开放,235B-A22B 用于云端服务
- 部署灵活:支持纯本地(2B)、混合部署(2B+32B)、全云(32B+)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















