在信息检索和智能代理领域,如何让 AI 代理具备自主搜索、推理和决策能力是一个关键挑战。为此,阿里通义实验室提出了 WebDancer —— 一个全新的 端到端代理训练框架,旨在增强基于网络的代理在多步骤任务中的表现力与泛化能力。
- GitHub:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
- 模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B
该框架采用一种创新的 四阶段训练范式,结合数据驱动方法与强化学习,成功构建了可扩展的代理系统训练流水线。实验表明,WebDancer 在多个基准测试中表现出色,为未来代理系统的开发提供了系统性思路与实践路径。

核心架构与训练流程
四阶段训练范式
WebDancer 的核心在于其独特的训练流程,分为以下四个阶段:
- 浏览数据构建
- 利用爬虫技术采集网页数据
- 构建合成 QA 对(如 CRAWLQA 和 E2HQA)
- 模拟真实用户意图和交互行为
- 轨迹采样
- 使用拒绝采样方法生成高质量行动轨迹
- 支持短思考路径与长链式推理路径,模拟不同复杂度的任务过程
- 监督微调(SFT)
- 基于已有轨迹数据对模型进行格式化指令训练
- 实现冷启动阶段的初步性能提升
- 强化学习(RL)
- 引入 DAPO 等策略优化长期回报
- 提升代理在未知环境中的适应能力与泛化能力
这一流程融合了 轨迹级监督信号 与 在线学习机制,确保代理在训练过程中逐步掌握“观察 → 思考 → 行动”的完整闭环能力。
技术亮点
自主信息检索能力
WebDancer 能够在复杂的网页环境中自主感知、决策并采取行动,完成多步骤的人类任务。例如:
- 用户提问:“请查找某历史事件的时间、地点及影响”
- WebDancer 可通过多步搜索:
- 第一步:识别关键词并发起初始搜索
- 第二步:从结果页面提取相关链接并访问
- 第三步:整合信息形成结构化回答
多步骤推理与决策
- 代理支持交错的推理与执行步骤
- 能根据当前状态动态调整下一步动作(如是否点击、滚动、输入文本)
工具调用能力
- 支持调用外部工具(如搜索引擎、API 接口)
- 与浏览器环境无缝集成,实现高效的信息获取与处理
工作原理详解
WebDancer 基于经典的 ReAct 框架 设计,将推理(Reasoning)与行动(Action)紧密结合,使代理能够在复杂环境中有效学习与泛化。

ReAct 框架下的工作流程
| 阶段 | 描述 |
|---|---|
| 观察 (Observation) | 代理接收当前网页内容或用户输入 |
| 思考 (Thought) | 模型分析上下文,制定下一步计划 |
| 行动 (Action) | 执行具体操作(如点击、搜索、输入) |
| 结果 (Result) | 获取新观察数据,进入下一轮循环 |
通过这种交替方式,WebDancer 可以完成如“多跳问答”、“跨页面信息整合”等复杂任务。
性能评估与测试结果
WebDancer 在两个具有挑战性的信息检索基准上进行了广泛验证:
| 基准名称 | Pass@1 分数 | Pass@3 分数 |
|---|---|---|
| GAIA | 41.0%(Level 1) 整体 61.1% | N/A |
| WebWalkerQA | 整体 54.6% | N/A |
注:Pass@N 表示代理在 N 次尝试内正确完成任务的比例。
这些结果充分验证了 WebDancer 在复杂任务上的卓越表现,尤其是在需要多跳推理与跨页面整合的场景中。
应用场景
WebDancer 的设计不仅限于学术研究,更具备广泛的现实应用潜力:
| 场景 | 应用描述 |
|---|---|
| 科学研究 | 快速检索文献资料、整理研究背景、辅助论文撰写 |
| 教育辅导 | 为学生提供个性化学习资源推荐与知识梳理 |
| 商业智能 | 自动收集市场趋势、竞品分析、行业报告 |
| 日常咨询 | 如旅行路线规划、健康建议整合、产品对比分析 |
此外,WebDancer 也可作为通用信息检索引擎的基础模块,嵌入各类 AI 助手或企业级服务中。
技术优势总结
| 特性 | 描述 |
|---|---|
| 数据驱动 | 构建高质量训练数据集,涵盖多样化任务 |
| 多模态训练 | 支持网页文本、图像、表格等多种内容理解 |
| 可扩展性强 | 训练流程模块化,便于迭代升级 |
| 冷启动友好 | 通过 SFT 快速获得基础能力 |
| 泛化能力突出 | 强化学习进一步提升复杂任务表现 |
技术展望与未来方向
WebDancer 展示了当前代理系统在信息检索任务中的强大潜力,也为未来的研究提供了多个值得探索的方向:
- 更精细的动作空间建模:如鼠标轨迹、键盘输入等细粒度控制
- 更强的语义理解能力:提升对非结构化网页内容的理解深度
- 跨平台迁移能力:适配移动设备、桌面浏览器等多种交互界面
- 安全与伦理机制:防止代理误操作、隐私泄露等问题
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















