阿里通义实验室开源 WebSailor,登顶 BrowseComp 榜单的网络智能体

大语言模型5个月前发布 小马良
213 0

近日,阿里云通义实验室正式开源了一款名为 WebSailor 的新型网络智能体(Web Agent),它具备强大的多步推理与信息检索能力,在高难度网页导航任务中表现出色。

该模型在业界权威评测集 BrowseComp-en/zh 中取得当前开源智能体中的最佳成绩,超越 DeepSeek R1、Grok-3 等模型,登上开源榜单首位,并逼近 OpenAI 的 DeepResearch 表现。

目前,WebSailor 的构建方案与部分训练数据已在 GitHub 开源,标志着开源社区在网络智能体领域迈出了关键一步。

技术亮点概述

特性描述
🌐 网络智能体训练方法论提出完整的后训练流程,提升 LLM 在复杂网页任务中的推理能力
📚 SailorFog-QA 数据合成管道构建高不确定性、非线性路径的问题,用于训练强健的代理
⚙️ 拒绝采样微调(RFT) + DUPO 算法实现冷启动与强化学习阶段的高效优化
💡 多步推理与交叉验证机制能处理模糊问题,在多个网页间跳跃查找并验证信息
📈 性能领先在 BrowseComp 上大幅领先现有开源系统,接近闭源模型水平

🛠 核心架构与训练策略

训练三阶段设计

第一阶段:数据合成 —— SailorFog-QA

  • 构建知识图谱,生成具有初始不确定性的复杂问题;
  • 引入信息混淆机制,模拟真实世界的搜索挑战;
  • 专为第三级(最高难度)任务设计,超越传统结构化推理模式。

第二阶段:拒绝采样微调(Rejection Fine-Tuning, RFT)

  • 基于少量高质量专家轨迹进行“冷启动”;
  • 学习简洁、以行动为导向的行为逻辑;
  • 快速建立初步的推理与交互能力。

第三阶段:重复采样策略优化(DUPO)

  • 利用强化学习进一步优化探索策略;
  • 支持更高效的页面跳转与信息整合;
  • 显著提升在极端不确定环境下的决策稳定性。

测试表现与行业对比

✅ 在 BrowseComp 评测集上的结果:

模型英文任务得分中文任务得分是否开源
WebSailor-72B✅ 最高分✅ 最高分
WebSailor-32B✅ 领先所有开源模型✅ 领先
DeepSeek R1⬇️ 落后⬇️ 落后否?
Grok-3⬇️ 落后⬇️ 落后
Doubao-Search接近接近
OpenAI DeepResearch🥇 第一名🥇 第一名闭源

💡 尽管 WebSailor 仅基于高难度任务训练,它在简单任务如 SimpleQA 上也展现出卓越泛化能力,甚至优于其他基线方法。

核心功能与应用场景

精密网络导航与推理

WebSailor 可自动完成如下任务:

  • 对模糊问题进行多轮网页跳转与信息整合;
  • 在多个来源之间交叉验证答案;
  • 自主判断何时停止搜索,何时返回最终结论。

高度不确定性下的求解能力

  • 可处理高度抽象或信息碎片化的查询;
  • 通过 SailorFog-QA 合成的训练数据,使其适应现实世界中常见的混乱信息环境。

应用方向广泛

场景描述
搜索引擎辅助提升语义理解与结果排序
智能客服自动从官网、帮助文档中提取准确答案
教育辅导检索并整合学术资源,辅助研究
金融分析多源新闻、财报、市场数据整合
跨模态信息整合未来可拓展至图像、视频等多模态检索场景

技术架构详解

后训练方法论创新

WebSailor 并非直接依赖大模型预训练权重,而是通过一套完整的 post-training 流程大幅提升其网络交互能力:

  1. 专家轨迹采集
    • 使用人工标注或已有高质量行为数据作为“教师模型”;
    • 构建标准动作序列供代理学习。
  2. 推理过程重构
    • 将专家行为转换为监督信号;
    • 强调“动作导向”的学习方式,避免冗长的思考风格。
  3. 冷启动与 RFT
    • 通过拒绝采样机制筛选高质量样本进行初期训练;
    • 加快收敛速度,提高训练效率。
  4. 强化学习阶段(DUPO)
    • 使用自研算法优化探索策略;
    • 提升代理在复杂环境中的稳定性和适应力。

技术突破点总结

方法优势
🌐 SailorFog-QA 数据合成构造更高不确定性任务,提升模型鲁棒性
🔄 RFT + DUPO 算法冷启动快速有效,后续强化学习更具针对性
🧮 多步推理与交叉验证能处理跨页面、跨站点的信息整合
📈 高效泛化能力不仅擅长复杂任务,在简单任务上也表现优异

开源与生态展望

WebSailor 目前已开放构建方案与部分训练数据集,开发者可以基于其方法论开发新一代网络智能体。

开源内容包括:

  • 模型构建流程
  • Sailorfog-QA 数据生成器
  • RFT 和 DUPO 的实现细节
  • 示例代码与部署指南

社区建议:

  • 可借鉴其训练范式构建其他领域的智能体(如科学问答、医学文献检索等);
  • 可扩展支持多模态输入(图像、表格、视频);
  • 可尝试轻量化部署(如 7B 模型)以适配边缘设备或消费端应用。

行业意义与未来趋势

WebSailor 的发布标志着:

  • 开源智能体首次在复杂网页任务中达到接近闭源系统的水平;
  • 大模型不仅能回答问题,还能主动“阅读”、“探索”、“验证”;
  • “Agent + 推理 + 搜索”的融合模式正在成为新范式。

随着 WebSailor 的开源,未来我们有望看到更多 AI 智能体应用于:

  • 自动化科研文献综述
  • 个性化教育内容推荐
  • 实时新闻聚合与事实核查
  • 游戏剧情引导与 NPC 智能增强
  • 企业级知识管理与信息整合
© 版权声明

相关文章

暂无评论

none
暂无评论...