Hugging Face推出Smol2Operator：让小模型学会操作图形界面

多模态模型6个月前发布小马良

126 0

在人机交互日益复杂的今天，一个长期被忽视的问题是：

我们能让AI像人类一样“使用”计算机吗？

不是生成文本或识别图像，而是真正理解屏幕上的按钮、输入框、菜单，并通过点击、滑动、输入等动作完成任务——这正是 图形用户界面（GUI）自动化 的核心挑战。

Hugging Face 最近提出 Smol2Operator ——一套基于小型视觉-语言模型（VLM）的完整训练框架，将原本不具备 GUI 感知能力的模型，逐步训练成能够观察并操作桌面、移动端和网页界面的智能代理。

GitHub：https://github.com/huggingface/smol2operator
模型：https://huggingface.co/collections/smolagents/smol2operator-release-68d288e87d3fa8f551d2ce2e

该项目不追求“SOTA性能”，而是聚焦于展示一条从数据处理到模型训练的完整技术路径，揭示如何系统性地为 VLM 注入 GUI grounding 能力。

Hugging Face推出Smol2Operator：让小模型学会操作图形界面

其意义在于：

不再依赖大模型黑箱能力，而是构建可复现、可扩展、可定制的 GUI 智能体训练流程。

为什么GUI自动化如此困难？

GUI 自动化不同于传统任务，它要求模型具备多重能力：

感知能力：识别界面上的元素（按钮、文本框、图标）
定位能力：准确理解元素的位置与布局
语义理解：知道“搜索框”是用来输入关键词的
动作推理：决定下一步应执行“点击”还是“输入”
跨平台泛化：适应不同分辨率、操作系统和应用风格

而现有视觉-语言模型大多缺乏对 UI 元素的结构化理解，无法将“视觉区域”与“可执行动作”建立映射。

Smol2Operator 的目标，就是解决这一断层。

基础模型选择：SmolVLM2-2.2B-Instruct

项目选用 SmolVLM2-2.2B-Instruct 作为基础模型，原因明确：

参数量仅 22亿，轻量高效，适合边缘部署
初始状态下不具备任何GUI相关先验知识
支持多模态输入（图像 + 文本），具备基本推理能力

这个“白板”特性使其成为理想的实验对象——最终的能力提升，完全归功于训练策略本身，而非预训练偏见。

方法概览：两阶段训练，分步注入能力

Smol2Operator 采用 两阶段训练策略，逐步赋予模型 GUI 操作能力：

第一阶段：注入 Grounding 能力（感知与定位）

目标：让模型学会将自然语言指令与屏幕上具体区域关联起来。

输入：截图 + 指令（如“点击登录按钮”）
输出：标准化动作函数调用（如 click(x=0.45, y=0.78)）

通过监督学习，模型掌握“哪里该点”“哪个区域对应什么功能”。

第二阶段：增强智能推理能力（决策与规划）

目标：使模型能处理更复杂任务，如多步操作、条件判断。

使用高质量 SFT（监督微调）数据
包含上下文记忆、错误恢复、状态追踪等高级行为
提升模型在真实场景中的鲁棒性与连贯性

这种分阶段设计避免了能力混淆，确保每一步训练都有明确目标。

关键创新：统一动作空间与归一化坐标

要训练通用 GUI 智能体，必须解决一个根本问题：

不同数据集的动作表示五花八门，难以合并训练。

例如：

tap(x=302, y=63)
click(element_id=12)
press("Search")

这些看似相似的操作，实则格式混乱、语义模糊。

为此，团队构建了一套完整的 数据转换流水线，实现三大统一：

1. 动作空间标准化

所有操作被映射为一组标准化函数，例如：

原始动作	统一后
tap(x=302,y=63)	click(x=0.45,y=0.78)
type("hello")	input(text="hello")
swipe(left)	swipe(direction="left")

并通过 preprocessing/action_conversion.py 实现自动转换。

2. 归一化坐标系统

不再使用原始像素值（易受分辨率影响），而是将所有坐标归一化到 [0,1] 区间：

x_norm = x_pixel / image_width
y_norm = y_pixel / image_height

这一改动使得模型输出与图像尺寸解耦，极大提升了跨设备泛化能力。

3. 灵活适配框架

提供工具 utils/action_space_converter.py，允许用户：

将标准动作空间转换为自己系统的 API 格式
分析现有数据集的动作分布
自定义函数签名与参数命名

真正实现“一次训练，多端适配”。

评估结果：在ScreenSpot-v2上验证grounding能力

项目在公认的 GUI 感知基准 ScreenSpot-v2 上进行评估，该任务要求模型根据指令精确定位界面上的目标元素。

结果显示，经过两阶段训练的 Smol2Operator 显著优于基线模型，在定位准确性与动作匹配度上均有明显提升。

更重要的是，模型展现出良好的零样本迁移能力，能在未见过的应用界面上做出合理推断。

文章版权归作者所有，未经允许请勿转载。

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

多模态模型 # Skywork R1V2 # 多模态推理模型 # 天工AI

11个月前

04500

面壁智能发布MiniCPM-o 4.5：9B参数端侧全双工多模态大模型，对标Gemini 2.5 Flash

多模态模型 # MiniCPM-o 4.5 # 面壁智能

1个月前

0670

阿里通义实验室开源R1-Omni：用强化学习解锁全模态大模型的新潜力

多模态模型 # R1-Omni # 全模态大模型 # 强化学习

1年前

02250

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

多模态模型 # UI-TARS # 字节跳动

11个月前

03740

暂无评论

暂无评论...