在浏览器智能体(Browser Agent)领域,工程师们长期面临一个两难选择:要么使用功能强大但完全封闭、无法审计的专有 API(如 OpenAI Operator、Anthropic Computer Use),要么使用开源框架(如 Browser-use)但必须自己寻找模型并从头训练。

艾伦人工智能研究所(Ai2)推出了 MolmoWeb,提供了第三种选择:一个拥有开放权重、完整训练数据和透明训练栈的视觉网页智能体。这不仅是一个模型,更是一套可复现、可审计、可微调的完整解决方案。
- GitHub:https://github.com/allenai/molmoweb
- 模型:https://huggingface.co/collections/allenai/molmoweb
- Demo:https://molmoweb.allen.ai
核心亮点:所见即所得,所训即所用
1. 纯视觉驱动,不依赖 HTML
MolmoWeb 的工作方式与人类高度一致:它只看截图。
- 输入:当前页面截图 + 任务指令 + 历史操作日志 + URL/标题。
- 输出:自然语言思维链(CoT)+ 具体浏览器操作(点击坐标、输入文本、滚动、跳转等)。
- 优势:完全不解析 HTML DOM 或依赖无障碍树(Accessibility Tree)。这意味着它与浏览器无关,可以在 Chrome、Safari、Firefox 甚至云浏览器(如 Browserbase)上无缝运行,真正实现了“像人一样浏览”。
2. 史上最大开源网页任务数据集:MolmoWebMix
模型权重的开放只是第一步,Ai2 同步发布了包含 30,000 条人类任务轨迹 的庞大训练数据集 MolmoWebMix,这是目前公开规模最大的同类数据集:
- 人类演示 (Human Demonstrations):
- 覆盖 1,100+ 个真实网站。
- 包含 590,000 个子任务演示。
- 由人工标注员通过定制 Chrome 插件录制,确保动作的真实性和多样性。
- 合成轨迹 (Synthetic Trajectories):
- 利用基于文本的智能体生成额外数据,经任务成功筛选后加入。
- 关键点:合成数据源自纯文本系统,未使用任何专有视觉智能体(如 Operator),保证了数据的纯净和开放性。
- GUI 感知数据 (GUI Grounding):
- 包含 220 万 个截图问答对,涵盖元素定位和基于图像的推理任务,强化模型“看图识物”的能力。
3. 性能表现:开源第一,媲美闭源
尽管是开源模型,MolmoWeb(提供 4B 和 8B 两种参数规模)在多个实时网站基准测试中表现卓越:
- 基准测试领先:在 WebVoyager, Online-Mind2Web, DeepShop, WebTailBench 四大基准上,超越了所有其他开放权重模型。
- 越级挑战:即便对比基于 GPT-4o 且拥有额外 DOM 信息的旧版 API 智能体,MolmoWeb 依然展现出竞争力。
- 透明度优势:企业可以完全审计其决策过程,在内部数据上进行微调,且无需担心 API 调用费用或供应商锁定。

技术架构与工作原理
MolmoWeb 基于 Ai2 自家的 Molmo 视觉语言模型系列构建,其工作流极其简洁高效:
- 感知:截取当前浏览器窗口图像。
- 推理:结合任务指令和历史记录,模型生成一段自然语言“思考”,分析当前状态和下一步策略。
- 行动:输出具体的原子操作(如
CLICK(x=120, y=350),TYPE("search query"))。 - 循环:浏览器执行操作,页面更新,进入下一轮循环。
这种设计使得 MolmoWeb 能够处理动态加载内容、复杂布局以及传统 DOM 解析器难以应对的现代 Web 应用。

⚠️ 当前局限与未来展望
Ai2 坦诚地列出了 MolmoWeb 目前的局限性:
- OCR 误差:偶尔会从截图中错误读取文本。
- 交互限制:拖放(Drag-and-Drop)等复杂手势操作尚不稳定。
- 安全边界:未在需要登录、支付或金融交易的敏感场景上进行训练,以避免滥用风险。
- 指令模糊:在面对极度模糊的指令时,性能会有所下降。
然而,随着数据集的开放,社区可以针对特定场景(如电商购物、后台管理)进行微调和增强,快速弥补这些短板。
行业意义:从“黑盒调用”到“白盒共建”
MolmoWeb 的发布标志着 AI 智能体开发范式的转变:
- 对于企业:不再需要将敏感业务流程数据发送给第三方 API,可在内网私有化部署,满足合规与隐私要求。
- 对于研究者:拥有了首个可复现的基线模型和海量训练数据,加速了网页智能体领域的科研进展。
- 对于开发者:提供了一个开箱即用的高性能底座,无需再为“找模型、洗数据、训智能体”而头疼。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















