微软推出一个名为 Phi-Ground 的模型家族,旨在提高计算机界面(GUI)定位(grounding)的准确性。GUI 定位是计算机使用代理(CUAs)执行实际操作的核心组件,类似于机器人中的机械控制。它直接决定了系统操作的成功与否,例如点击和输入操作及其相关参数(如点击坐标)。当前的端到端定位模型在 ScreenSpot-pro 和 UI-Vision 等挑战性基准测试中的准确率仍低于 65%,表明它们尚未准备好部署。Phi-Ground 通过一系列实验研究,从数据收集到模型训练,最终在所有五个定位基准测试中实现了 10B 参数以下模型的最佳性能。
- 项目主页:https://zhangmiaosen2000.github.io/Phi-Ground
- GitHub:https://github.com/zhangmiaosen2000/Phi-Ground
例如,用户需要在 Photoshop 中选择“调整图层”选项。Phi-Ground 能够理解用户的指令,并准确地定位到屏幕上的“调整图层”按钮,即使该按钮可能与其他类似图标相邻,或者其位置因界面布局而有所不同。

主要功能
Phi-Ground 的主要功能包括:
- 自动化 GUI 定位:从自然语言描述中自动生成 GUI 元素的点击坐标。
- 高精度定位:在高分辨率和复杂界面中实现高精度的元素定位。
- 多基准测试支持:支持多个基准测试,包括 ScreenSpot-pro、UI-Vision 和 Showdown-click-dev 等。
- 领域适应性:通过领域后训练(post-training)技术,Phi-Ground 能够适应特定软件或操作系统,提高在特定场景下的性能。
主要特点
- 两阶段实现:采用两阶段方法,首先使用强大的多模态语言模型(如 GPT-4O)生成详细的参考表达(RE),然后使用训练有素的定位模型生成具体坐标。
- 数据增强:引入随机裁剪和随机缩放等数据增强技术,提高模型在高分辨率场景下的性能。
- 领域后训练:通过领域后训练技术,Phi-Ground 能够在特定领域(如 Photoshop 或 Windows 设置)中实现更好的性能。
- 计算效率:在训练和推理过程中,Phi-Ground 考虑了计算成本,通过优化图像令牌数量和模型参数,提高了效率。
工作原理
Phi-Ground 的工作原理可以分为以下几个关键步骤:
- 场景规划:使用 GPT-4O 生成详细的参考表达(RE),描述目标元素的位置、功能和外观。
- 数据准备:通过多种数据源(如 CommonCrawl、BingSearch 和人类标注数据)收集大量训练样本,并进行数据增强和清洗。
- 模型训练:使用多模态语言模型(如 Phi-3.5-Vision-Instruct 和 Phi-4-MM)进行训练,优化模型以输出准确的点击坐标。
- 领域后训练:通过领域后训练技术,进一步优化模型在特定软件或操作系统中的性能。
- 推理优化:在推理阶段,Phi-Ground 使用优化的图像令牌数量和模型参数,提高计算效率。
测试结果
Phi-Ground 在多个基准测试中取得了显著的性能提升:
- 在 ScreenSpot-pro 基准测试中,Phi-Ground-4B-16C-DPO 实现了 55.0% 的准确率,Phi-Ground-7B-16C-DPO 实现了 55.0% 的准确率。
- 在 UI-Vision 基准测试中,Phi-Ground-4B-16C-DPO 实现了 36.2% 的准确率,Phi-Ground-7B-16C-DPO 实现了 36.2% 的准确率。
- 在 Showdown-click-dev 基准测试中,Phi-Ground-7B-16C-DPO 实现了 62.48% 的准确率。
- 在 Gold 数据集(内部构建的 Windows 场景数据集)中,Phi-Ground-7B-16C-DPO 实现了 84.36% 的准确率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















