Ai2 发布 MolmoWeb:首个开放权重、全视觉的网页智能体,打破 API 黑盒

在浏览器智能体(Browser Agent)领域,工程师们长期面临一个两难选择:要么使用功能强大但完全封闭、无法审计的专有 API(如 OpenAI Operator、Anthropic Computer Use),要么使用开源框架(如 Browser-use)但必须自己寻找模型并从头训练。

Ai2 发布 MolmoWeb:首个开放权重、全视觉的网页智能体,打破 API 黑盒

艾伦人工智能研究所(Ai2)推出了 MolmoWeb,提供了第三种选择:一个拥有开放权重完整训练数据透明训练栈的视觉网页智能体。这不仅是一个模型,更是一套可复现、可审计、可微调的完整解决方案。

  • GitHub:https://github.com/allenai/molmoweb
  • 模型:https://huggingface.co/collections/allenai/molmoweb
  • Demo:https://molmoweb.allen.ai

核心亮点:所见即所得,所训即所用

1. 纯视觉驱动,不依赖 HTML

MolmoWeb 的工作方式与人类高度一致:它只看截图

  • 输入:当前页面截图 + 任务指令 + 历史操作日志 + URL/标题。
  • 输出:自然语言思维链(CoT)+ 具体浏览器操作(点击坐标、输入文本、滚动、跳转等)。
  • 优势:完全不解析 HTML DOM 或依赖无障碍树(Accessibility Tree)。这意味着它与浏览器无关,可以在 Chrome、Safari、Firefox 甚至云浏览器(如 Browserbase)上无缝运行,真正实现了“像人一样浏览”。

2. 史上最大开源网页任务数据集:MolmoWebMix

模型权重的开放只是第一步,Ai2 同步发布了包含 30,000 条人类任务轨迹 的庞大训练数据集 MolmoWebMix,这是目前公开规模最大的同类数据集:

  • 人类演示 (Human Demonstrations)
    • 覆盖 1,100+ 个真实网站。
    • 包含 590,000 个子任务演示。
    • 由人工标注员通过定制 Chrome 插件录制,确保动作的真实性和多样性。
  • 合成轨迹 (Synthetic Trajectories)
    • 利用基于文本的智能体生成额外数据,经任务成功筛选后加入。
    • 关键点:合成数据源自纯文本系统,未使用任何专有视觉智能体(如 Operator),保证了数据的纯净和开放性。
  • GUI 感知数据 (GUI Grounding)
    • 包含 220 万 个截图问答对,涵盖元素定位和基于图像的推理任务,强化模型“看图识物”的能力。

3. 性能表现:开源第一,媲美闭源

尽管是开源模型,MolmoWeb(提供 4B 和 8B 两种参数规模)在多个实时网站基准测试中表现卓越:

  • 基准测试领先:在 WebVoyagerOnline-Mind2WebDeepShopWebTailBench 四大基准上,超越了所有其他开放权重模型。
  • 越级挑战:即便对比基于 GPT-4o 且拥有额外 DOM 信息的旧版 API 智能体,MolmoWeb 依然展现出竞争力。
  • 透明度优势:企业可以完全审计其决策过程,在内部数据上进行微调,且无需担心 API 调用费用或供应商锁定。
Ai2 发布 MolmoWeb:首个开放权重、全视觉的网页智能体,打破 API 黑盒

技术架构与工作原理

MolmoWeb 基于 Ai2 自家的 Molmo 视觉语言模型系列构建,其工作流极其简洁高效:

  1. 感知:截取当前浏览器窗口图像。
  2. 推理:结合任务指令和历史记录,模型生成一段自然语言“思考”,分析当前状态和下一步策略。
  3. 行动:输出具体的原子操作(如 CLICK(x=120, y=350)TYPE("search query"))。
  4. 循环:浏览器执行操作,页面更新,进入下一轮循环。

这种设计使得 MolmoWeb 能够处理动态加载内容、复杂布局以及传统 DOM 解析器难以应对的现代 Web 应用。

Ai2 发布 MolmoWeb:首个开放权重、全视觉的网页智能体,打破 API 黑盒

⚠️ 当前局限与未来展望

Ai2 坦诚地列出了 MolmoWeb 目前的局限性:

  • OCR 误差:偶尔会从截图中错误读取文本。
  • 交互限制:拖放(Drag-and-Drop)等复杂手势操作尚不稳定。
  • 安全边界:未在需要登录、支付或金融交易的敏感场景上进行训练,以避免滥用风险。
  • 指令模糊:在面对极度模糊的指令时,性能会有所下降。

然而,随着数据集的开放,社区可以针对特定场景(如电商购物、后台管理)进行微调和增强,快速弥补这些短板。

行业意义:从“黑盒调用”到“白盒共建”

MolmoWeb 的发布标志着 AI 智能体开发范式的转变:

  • 对于企业:不再需要将敏感业务流程数据发送给第三方 API,可在内网私有化部署,满足合规与隐私要求。
  • 对于研究者:拥有了首个可复现的基线模型和海量训练数据,加速了网页智能体领域的科研进展。
  • 对于开发者:提供了一个开箱即用的高性能底座,无需再为“找模型、洗数据、训智能体”而头疼。
© 版权声明

相关文章

暂无评论

none
暂无评论...