Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

多模态模型10个月前发布小马良

343 0

Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型（VLM），作为 Surfer-H 网络代理的核心组件之一，它具备像人类用户一样与网页界面交互的能力。

模型：https://huggingface.co/collections/Hcompany/holo1-683dd1eece7eb077b96d0cbd

核心功能角色：

在 Surfer-H 的模块化架构中，Holo1 可以担任以下任一关键角色：

策略模型（Policy Model）：负责任务规划与行为决策。
定位模型（Localizer Model）：理解视觉界面并驱动精确交互。
验证模型（Validator Model）：判断当前输出是否有效，并支持重试机制。

这种灵活的角色分配机制使 Holo1 能够适应不同复杂度的任务需求。

技术背景与训练数据

Holo1 基于 Qwen2.5-VL-7B-Instruct 微调而来，结合了多种高质量数据源进行训练，包括：

开放访问网页内容
合成生成样本
自产代理交互数据

这些数据的融合使 Holo1 在多个 UI 定位与网页导航任务中表现出色。

性能表现与评估结果

📊 WebVoyager 基准测试（643 个真实世界任务）

模型组合	准确率	单任务成本
Surfer-H + Holo1-7B	92.2%	$0.13
Surfer-H + GPT-4.1	92.0%	$0.54
Surfer-H + Holo1-3B	89.7%	$0.11
Surfer-H + GPT-4.1-mini	88.8%	$0.26

从上表可见，Holo1 驱动的代理在准确率与成本之间实现了帕累托最优平衡，是目前最具性价比的视觉语言代理方案之一。

不同于依赖定制 API 或脆弱封装器的系统，Surfer-H 通过浏览器原生操作完成任务，就像一个真实的用户在使用网页。

UI 定位能力评估

Holo1 在多个 UI 定位基准中表现优异，显著优于其他主流模型如 Qwen2.5-VL、UI-TARS 和 UGround：

模型	平均定位准确率
Holo1-3B	73.6%
Holo1-7B	76.2%（小规模模型中最高）

为了推动社区研究，HCompany 还发布了新的 UI 定位基准 WebClick，包含来自 100 多个网站的 1,639 对图像-指令样本，更加贴近真实用户的使用场景。

多模态模型 # Holo1 # 视觉-语言模型

文章版权归作者所有，未经允许请勿转载。

POINTS-Reader：无需蒸馏、端到端的轻量级文档视觉语言模型

多模态模型 # POINTS-Reader # 文档视觉语言模型

7个月前

02240

CDMs：让机器人“看清”三维世界，实现从仿真到现实的无缝迁移

多模态模型 # CDMs # 机器人

7个月前

0960

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

多模态模型 # Seed1.5-VL # 字节跳动 # 视觉-语言基础模型

11个月前

05300

机器人行动推理模型MolmoAct：通过结构化的三阶段推理流程（感知、规划和控制）将视觉、语言和行动相结合，使机器人能够更智能地执行任务

多模态模型 # MolmoAct # 机器人行动推理模型

8个月前

01900

暂无评论

暂无评论...

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

核心功能角色：

技术背景与训练数据

性能表现与评估结果

📊 WebVoyager 基准测试（643 个真实世界任务）

UI 定位能力评估

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

相关文章

POINTS-Reader：无需蒸馏、端到端的轻量级文档视觉语言模型

CDMs：让机器人“看清”三维世界，实现从仿真到现实的无缝迁移

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

机器人行动推理模型MolmoAct：通过结构化的三阶段推理流程（感知、规划和控制）将视觉、语言和行动相结合，使机器人能够更智能地执行任务

暂无评论

文章

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

ComfyUI-NAG 插件正式上线：为扩散模型带来高效负向引导能力

限时免费体验一周！小米凌晨官宣三款大模型：MiMo-V2 系列正式亮相，1M 上下文比肩 Opus 4.6

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

如何在谷歌Veo 3中实现图生视频（I2V）的角色一致性？实用技巧分享

S.H.I.T

ITELLOU

waoo

OpenMAIC

Jellyfish AI短剧工厂

OpResume

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

核心功能角色：

技术背景与训练数据

性能表现与评估结果

📊 WebVoyager 基准测试（643 个真实世界任务）

UI 定位能力评估

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

相关文章

文章

标签云

网址

S.H.I.T

ITELLOU

waoo

OpenMAIC

Jellyfish AI短剧工厂

OpResume