Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。

核心功能角色:
在 Surfer-H 的模块化架构中,Holo1 可以担任以下任一关键角色:
- 策略模型(Policy Model):负责任务规划与行为决策。
- 定位模型(Localizer Model):理解视觉界面并驱动精确交互。
- 验证模型(Validator Model):判断当前输出是否有效,并支持重试机制。
这种灵活的角色分配机制使 Holo1 能够适应不同复杂度的任务需求。
技术背景与训练数据
Holo1 基于 Qwen2.5-VL-7B-Instruct 微调而来,结合了多种高质量数据源进行训练,包括:
- 开放访问网页内容
- 合成生成样本
- 自产代理交互数据
这些数据的融合使 Holo1 在多个 UI 定位与网页导航任务中表现出色。
性能表现与评估结果
📊 WebVoyager 基准测试(643 个真实世界任务)
| 模型组合 | 准确率 | 单任务成本 |
|---|---|---|
| Surfer-H + Holo1-7B | 92.2% | $0.13 |
| Surfer-H + GPT-4.1 | 92.0% | $0.54 |
| Surfer-H + Holo1-3B | 89.7% | $0.11 |
| Surfer-H + GPT-4.1-mini | 88.8% | $0.26 |
从上表可见,Holo1 驱动的代理在准确率与成本之间实现了帕累托最优平衡,是目前最具性价比的视觉语言代理方案之一。
不同于依赖定制 API 或脆弱封装器的系统,Surfer-H 通过浏览器原生操作完成任务,就像一个真实的用户在使用网页。
UI 定位能力评估
Holo1 在多个 UI 定位基准中表现优异,显著优于其他主流模型如 Qwen2.5-VL、UI-TARS 和 UGround:
| 模型 | 平均定位准确率 |
|---|---|
| Holo1-3B | 73.6% |
| Holo1-7B | 76.2%(小规模模型中最高) |
为了推动社区研究,HCompany 还发布了新的 UI 定位基准 WebClick,包含来自 100 多个网站的 1,639 对图像-指令样本,更加贴近真实用户的使用场景。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















