让大模型真正“看懂”界面:InfiGUI-G1提升 GUI 操作中的语义理解能力

多模态模型4个月前发布 小马良
170 0

在图形用户界面(GUI)自动化任务中,让多模态大语言模型(MLLM)准确执行自然语言指令,远不只是“点击坐标”那么简单。真正的挑战在于:既要精准定位界面上的元素(空间对齐),又要正确理解指令背后的意图(语义对齐)

例如,当用户说“用相机搜索这个物体”,模型不仅要识别出“相机”图标的位置,还要判断哪个图标真正具备“图像搜索”功能——这可能不是最显眼的那个相机按钮,而是隐藏在输入框旁的小镜头图标。

现有方法如可验证奖励强化学习(RLVR)虽在提升空间定位精度方面取得进展,但在复杂语义场景下仍表现乏力。其核心瓶颈在于:探索效率低。模型容易陷入“信心陷阱”——反复尝试相似动作,却难以跳出已有认知去发现真正符合语义逻辑的操作路径。

让大模型真正“看懂”界面:InfiGUI-G1提升 GUI 操作中的语义理解能力

为突破这一限制,来自浙江大学、香港理工大学、InfiX.ai、芝加哥大学与亚马逊的研究团队联合提出 InfiGUI-G1 ——一个通过自适应探索策略优化(AEPO) 训练的新框架,显著提升了 MLLM 在 GUI 操作任务中的语义对齐能力。

问题本质:为什么“找得到”不等于“做对了”?

GUI 操作任务可以形式化为:给定一张界面截图和一条自然语言指令,模型需输出一个动作(如点击坐标)。理想情况下,这个动作应同时满足:

  • 空间对齐:点击位置精确对应目标控件;
  • 语义对齐:所选控件功能上符合指令意图。

然而,现实中的界面设计多样,功能相同的控件可能形态各异(如“放大镜”图标 vs “搜索”文字按钮),而外观相似的控件功能却可能完全不同。这就要求模型具备更强的语义推理能力,而非依赖视觉匹配或固定模式。

传统强化学习方法依赖单一动作采样,在复杂语境下探索效率低下。一旦初始策略稍有偏差,后续训练容易陷入局部最优,无法覆盖潜在的正确动作路径。

解决方案:AEPO 框架如何提升探索效率?

InfiGUI-G1 的核心是 自适应探索策略优化(Adaptive Exploration Policy Optimization, AEPO),它从两个层面重构了模型的探索机制:

1. 多答案生成:一次前向传播,多个候选动作

不同于传统方法每次仅生成一个动作,AEPO 允许模型在单次前向传播中生成 N 个候选动作 $ \mathcal{A} = {p_1, p_2, ..., p_N} $。

这相当于让模型“多想几步”,在同一推理过程中尝试多种可能性,显著提高正确动作被采样的概率。实验表明,仅生成约 2 个候选动作,其覆盖率已超过基线模型 4 次独立采样的总和。

2. 自适应探索奖励(AER):动态平衡探索与利用

为了引导这种多样化探索,研究团队设计了 自适应探索奖励函数(Adaptive Exploration Reward, AER),其理论基础来自效率公式:

基于效率比率 (其中 是效用, 是成本)设计的奖励函数,动态调整探索和利用的平衡。

其中  U  表示动作带来的效用(是否成功), C  是探索成本(如动作数量或不确定性)。AER 根据该比率动态调整奖励信号:

  • 当某候选动作成功时,给予高奖励,并适度抑制过度探索;
  • 当所有动作均失败时,则鼓励更大范围的探索,避免陷入盲区。

这种机制使得模型能在“坚持已有经验”和“尝试新路径”之间实现动态平衡,有效缓解“信心陷阱”。

训练方法:RLOO + AEPO,高效优化策略

InfiGUI-G1 采用 Reinforce Leave-One-Out(RLOO) 算法进行策略优化。其核心思想是:

对于每组生成的多个候选动作,逐个将其排除,用其余动作作为对比基准,计算当前动作的相对优势。这种方式能更稳定地估计策略梯度,减少方差,提升训练效率。

结合 AEPO 的多动作生成与 AER 奖励机制,整个训练过程在有限数据下实现了更高的样本利用率。

性能表现:小数据,大提升

InfiGUI-G1 在多个主流 GUI 推理基准上进行了全面测试,结果展现出显著优势:

✅ 主流基准表现(部分)

基准模型准确率
ScreenSpot-ProInfiGUI-G1-3B45.2%
Naive RLVR-3B40.4%
InfiGUI-G1-7B51.9%
Naive RLVR-7B46.5%
UI-VisionInfiGUI-G1-3B89.7%
InfiGUI-G1-7B87.4%

注:UI-Vision 上的表现优于其他 SOTA 方法。

✅ 探索效率对比

  • InfiGUI-G1 平均每轮生成约 2 个候选动作
  • 即使 Naive RLVR 进行 4 次独立尝试,其命中正确答案的概率仍低于 InfiGUI-G1 的单次多动作生成。

✅ 难样本上的突破

在 ScreenSpot-Pro 的“难样本”子集上(涉及复杂语义推理):

  • Naive RLVR-7B 准确率为 10.8%
  • InfiGUI-G1-7B 提升至 17.4%相对提升超过 60%

这说明 AEPO 特别擅长处理语义模糊或视觉干扰较大的任务。

关键优势总结

特性说明
语义对齐增强通过多动作探索与 AER 引导,显著提升对指令意图的理解能力
探索效率高单次推理生成多个候选,避免重复采样带来的资源浪费
数据效率优异仅使用 44k 样本训练,远少于同类方法常见的百万级数据需求
可扩展性强框架通用,适用于不同规模的 MLLM(3B / 7B 已验证)
© 版权声明

相关文章

暂无评论

none
暂无评论...