近日,阿里云通义实验室正式开源了一款名为 WebSailor 的新型网络智能体(Web Agent),它具备强大的多步推理与信息检索能力,在高难度网页导航任务中表现出色。
该模型在业界权威评测集 BrowseComp-en/zh 中取得当前开源智能体中的最佳成绩,超越 DeepSeek R1、Grok-3 等模型,登上开源榜单首位,并逼近 OpenAI 的 DeepResearch 表现。

目前,WebSailor 的构建方案与部分训练数据已在 GitHub 开源,标志着开源社区在网络智能体领域迈出了关键一步。

技术亮点概述
| 特性 | 描述 |
|---|---|
| 🌐 网络智能体训练方法论 | 提出完整的后训练流程,提升 LLM 在复杂网页任务中的推理能力 |
| 📚 SailorFog-QA 数据合成管道 | 构建高不确定性、非线性路径的问题,用于训练强健的代理 |
| ⚙️ 拒绝采样微调(RFT) + DUPO 算法 | 实现冷启动与强化学习阶段的高效优化 |
| 💡 多步推理与交叉验证机制 | 能处理模糊问题,在多个网页间跳跃查找并验证信息 |
| 📈 性能领先 | 在 BrowseComp 上大幅领先现有开源系统,接近闭源模型水平 |
🛠 核心架构与训练策略
训练三阶段设计
第一阶段:数据合成 —— SailorFog-QA
- 构建知识图谱,生成具有初始不确定性的复杂问题;
- 引入信息混淆机制,模拟真实世界的搜索挑战;
- 专为第三级(最高难度)任务设计,超越传统结构化推理模式。
第二阶段:拒绝采样微调(Rejection Fine-Tuning, RFT)
- 基于少量高质量专家轨迹进行“冷启动”;
- 学习简洁、以行动为导向的行为逻辑;
- 快速建立初步的推理与交互能力。
第三阶段:重复采样策略优化(DUPO)
- 利用强化学习进一步优化探索策略;
- 支持更高效的页面跳转与信息整合;
- 显著提升在极端不确定环境下的决策稳定性。

测试表现与行业对比
✅ 在 BrowseComp 评测集上的结果:
| 模型 | 英文任务得分 | 中文任务得分 | 是否开源 |
|---|---|---|---|
| WebSailor-72B | ✅ 最高分 | ✅ 最高分 | 是 |
| WebSailor-32B | ✅ 领先所有开源模型 | ✅ 领先 | 是 |
| DeepSeek R1 | ⬇️ 落后 | ⬇️ 落后 | 否? |
| Grok-3 | ⬇️ 落后 | ⬇️ 落后 | 否 |
| Doubao-Search | 接近 | 接近 | 否 |
| OpenAI DeepResearch | 🥇 第一名 | 🥇 第一名 | 闭源 |
💡 尽管 WebSailor 仅基于高难度任务训练,它在简单任务如 SimpleQA 上也展现出卓越泛化能力,甚至优于其他基线方法。
核心功能与应用场景
精密网络导航与推理
WebSailor 可自动完成如下任务:
- 对模糊问题进行多轮网页跳转与信息整合;
- 在多个来源之间交叉验证答案;
- 自主判断何时停止搜索,何时返回最终结论。
高度不确定性下的求解能力
- 可处理高度抽象或信息碎片化的查询;
- 通过 SailorFog-QA 合成的训练数据,使其适应现实世界中常见的混乱信息环境。
应用方向广泛
| 场景 | 描述 |
|---|---|
| 搜索引擎辅助 | 提升语义理解与结果排序 |
| 智能客服 | 自动从官网、帮助文档中提取准确答案 |
| 教育辅导 | 检索并整合学术资源,辅助研究 |
| 金融分析 | 多源新闻、财报、市场数据整合 |
| 跨模态信息整合 | 未来可拓展至图像、视频等多模态检索场景 |
技术架构详解
后训练方法论创新
WebSailor 并非直接依赖大模型预训练权重,而是通过一套完整的 post-training 流程大幅提升其网络交互能力:
- 专家轨迹采集
- 使用人工标注或已有高质量行为数据作为“教师模型”;
- 构建标准动作序列供代理学习。
- 推理过程重构
- 将专家行为转换为监督信号;
- 强调“动作导向”的学习方式,避免冗长的思考风格。
- 冷启动与 RFT
- 通过拒绝采样机制筛选高质量样本进行初期训练;
- 加快收敛速度,提高训练效率。
- 强化学习阶段(DUPO)
- 使用自研算法优化探索策略;
- 提升代理在复杂环境中的稳定性和适应力。
技术突破点总结
| 方法 | 优势 |
|---|---|
| 🌐 SailorFog-QA 数据合成 | 构造更高不确定性任务,提升模型鲁棒性 |
| 🔄 RFT + DUPO 算法 | 冷启动快速有效,后续强化学习更具针对性 |
| 🧮 多步推理与交叉验证 | 能处理跨页面、跨站点的信息整合 |
| 📈 高效泛化能力 | 不仅擅长复杂任务,在简单任务上也表现优异 |
开源与生态展望
WebSailor 目前已开放构建方案与部分训练数据集,开发者可以基于其方法论开发新一代网络智能体。
开源内容包括:
- 模型构建流程
- Sailorfog-QA 数据生成器
- RFT 和 DUPO 的实现细节
- 示例代码与部署指南
社区建议:
- 可借鉴其训练范式构建其他领域的智能体(如科学问答、医学文献检索等);
- 可扩展支持多模态输入(图像、表格、视频);
- 可尝试轻量化部署(如 7B 模型)以适配边缘设备或消费端应用。
行业意义与未来趋势
WebSailor 的发布标志着:
- 开源智能体首次在复杂网页任务中达到接近闭源系统的水平;
- 大模型不仅能回答问题,还能主动“阅读”、“探索”、“验证”;
- “Agent + 推理 + 搜索”的融合模式正在成为新范式。
随着 WebSailor 的开源,未来我们有望看到更多 AI 智能体应用于:
- 自动化科研文献综述
- 个性化教育内容推荐
- 实时新闻聚合与事实核查
- 游戏剧情引导与 NPC 智能增强
- 企业级知识管理与信息整合
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















