Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

多模态模型6个月前发布 小马良
267 0

Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。

核心功能角色:

在 Surfer-H 的模块化架构中,Holo1 可以担任以下任一关键角色:

  • 策略模型(Policy Model):负责任务规划与行为决策。
  • 定位模型(Localizer Model):理解视觉界面并驱动精确交互。
  • 验证模型(Validator Model):判断当前输出是否有效,并支持重试机制。

这种灵活的角色分配机制使 Holo1 能够适应不同复杂度的任务需求。

技术背景与训练数据

Holo1 基于 Qwen2.5-VL-7B-Instruct 微调而来,结合了多种高质量数据源进行训练,包括:

  • 开放访问网页内容
  • 合成生成样本
  • 自产代理交互数据

这些数据的融合使 Holo1 在多个 UI 定位与网页导航任务中表现出色。

性能表现与评估结果

📊 WebVoyager 基准测试(643 个真实世界任务)

模型组合准确率单任务成本
Surfer-H + Holo1-7B92.2%$0.13
Surfer-H + GPT-4.192.0%$0.54
Surfer-H + Holo1-3B89.7%$0.11
Surfer-H + GPT-4.1-mini88.8%$0.26

从上表可见,Holo1 驱动的代理在准确率与成本之间实现了帕累托最优平衡,是目前最具性价比的视觉语言代理方案之一。

不同于依赖定制 API 或脆弱封装器的系统,Surfer-H 通过浏览器原生操作完成任务,就像一个真实的用户在使用网页。

UI 定位能力评估

Holo1 在多个 UI 定位基准中表现优异,显著优于其他主流模型如 Qwen2.5-VL、UI-TARS 和 UGround:

模型平均定位准确率
Holo1-3B73.6%
Holo1-7B76.2%(小规模模型中最高)

为了推动社区研究,HCompany 还发布了新的 UI 定位基准 WebClick,包含来自 100 多个网站的 1,639 对图像-指令样本,更加贴近真实用户的使用场景。

© 版权声明

相关文章

暂无评论

none
暂无评论...