让大模型真正“看懂”界面：InfiGUI-G1提升 GUI 操作中的语义理解能力

221 0

在图形用户界面（GUI）自动化任务中，让多模态大语言模型（MLLM）准确执行自然语言指令，远不只是“点击坐标”那么简单。真正的挑战在于：既要精准定位界面上的元素（空间对齐），又要正确理解指令背后的意图（语义对齐）。

例如，当用户说“用相机搜索这个物体”，模型不仅要识别出“相机”图标的位置，还要判断哪个图标真正具备“图像搜索”功能——这可能不是最显眼的那个相机按钮，而是隐藏在输入框旁的小镜头图标。

现有方法如可验证奖励强化学习（RLVR）虽在提升空间定位精度方面取得进展，但在复杂语义场景下仍表现乏力。其核心瓶颈在于：探索效率低。模型容易陷入“信心陷阱”——反复尝试相似动作，却难以跳出已有认知去发现真正符合语义逻辑的操作路径。

为突破这一限制，来自浙江大学、香港理工大学、InfiX.ai、芝加哥大学与亚马逊的研究团队联合提出 InfiGUI-G1 ——一个通过自适应探索策略优化（AEPO） 训练的新框架，显著提升了 MLLM 在 GUI 操作任务中的语义对齐能力。

GUI 操作任务可以形式化为：给定一张界面截图和一条自然语言指令，模型需输出一个动作（如点击坐标）。理想情况下，这个动作应同时满足：

然而，现实中的界面设计多样，功能相同的控件可能形态各异（如“放大镜”图标 vs “搜索”文字按钮），而外观相似的控件功能却可能完全不同。这就要求模型具备更强的语义推理能力，而非依赖视觉匹配或固定模式。

传统强化学习方法依赖单一动作采样，在复杂语境下探索效率低下。一旦初始策略稍有偏差，后续训练容易陷入局部最优，无法覆盖潜在的正确动作路径。

InfiGUI-G1 的核心是 自适应探索策略优化（Adaptive Exploration Policy Optimization, AEPO），它从两个层面重构了模型的探索机制：

不同于传统方法每次仅生成一个动作，AEPO 允许模型在单次前向传播中生成 N 个候选动作 $ \mathcal{A} = {p_1, p_2, ..., p_N} $。

这相当于让模型“多想几步”，在同一推理过程中尝试多种可能性，显著提高正确动作被采样的概率。实验表明，仅生成约 2 个候选动作，其覆盖率已超过基线模型 4 次独立采样的总和。

为了引导这种多样化探索，研究团队设计了 自适应探索奖励函数（Adaptive Exploration Reward, AER），其理论基础来自效率公式：

基于效率比率 $η = U / C$ （其中 $U$ 是效用， $C$ 是成本）设计的奖励函数，动态调整探索和利用的平衡。

其中 U 表示动作带来的效用（是否成功）， C 是探索成本（如动作数量或不确定性）。AER 根据该比率动态调整奖励信号：

这种机制使得模型能在“坚持已有经验”和“尝试新路径”之间实现动态平衡，有效缓解“信心陷阱”。

InfiGUI-G1 采用 Reinforce Leave-One-Out（RLOO） 算法进行策略优化。其核心思想是：

对于每组生成的多个候选动作，逐个将其排除，用其余动作作为对比基准，计算当前动作的相对优势。这种方式能更稳定地估计策略梯度，减少方差，提升训练效率。

结合 AEPO 的多动作生成与 AER 奖励机制，整个训练过程在有限数据下实现了更高的样本利用率。

InfiGUI-G1 在多个主流 GUI 推理基准上进行了全面测试，结果展现出显著优势：

注：UI-Vision 上的表现优于其他 SOTA 方法。

在 ScreenSpot-Pro 的“难样本”子集上（涉及复杂语义推理）：

这说明 AEPO 特别擅长处理语义模糊或视觉干扰较大的任务。

特性	说明
语义对齐增强	通过多动作探索与 AER 引导，显著提升对指令意图的理解能力
探索效率高	单次推理生成多个候选，避免重复采样带来的资源浪费
数据效率优异	仅使用 44k 样本训练，远少于同类方法常见的百万级数据需求
可扩展性强	框架通用，适用于不同规模的 MLLM（3B / 7B 已验证）