通义 DeepResearch：首个全开源 Web Agent，性能对标 OpenAI 深度研究模型

363 0

阿里通义实验室正式发布 Tongyi DeepResearch —— 一个在性能上可与当前最先进闭源系统相媲美的全开源 Web Agent。

项目主页：https://tongyi-agent.github.io/zh/blog/introducing-tongyi-deep-research
GitHub：https://github.com/Alibaba-NLP/DeepResearch
Hugging Face：https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
魔塔：https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

它不仅在多个高难度信息检索与推理基准中取得领先成绩，更完整公开了从数据构建、预训练到强化学习的端到端训练方法论。这是业界首次将如此复杂且高性能的智能体系统全面开放，旨在推动 AI Agent 领域向更高水平演进。

在所有四项任务中均超越现有闭源与开源 Agent，达到当前最优水平。

今天的大多数大模型擅长回答静态知识问题，但在面对真实世界复杂任务时往往力不从心：

这些问题要求模型具备长期规划、工具调用、动态记忆管理和抗噪声推理能力——而这正是 Web Agent 的核心使命。

Tongyi DeepResearch 正是为此类任务而生。它是一个拥有 300亿总参数、每 token 激活 30亿参数的稀疏激活模型，专为长期、多步、高复杂度的信息搜索任务设计。

维度	能力说明
✅ 全面开源	完整模型 + 训练流程 + 数据合成方案全部公开
🔍 深度推理	支持 ReAct 与 IterResearch 双模式，兼顾基础能力与上限探索
🧠 自主决策	具备长期记忆管理、上下文重构和多路径探索机制
⚙️ 工具使用	稳定调用搜索、浏览、代码执行等外部工具
🌐 多语言支持	中英文场景下均表现优异，尤其在中文任务中领先明显

Tongyi DeepResearch 的成功并非来自单一模块优化，而是源于一套完整的、可复现的 Agent 构建体系。我们将其总结为三个关键阶段：

Agentic CPT → Agentic SFT → Agentic RL

这一端到端流程覆盖了从基座模型初始化到自我进化的全过程。

传统预训练关注通用语料理解，而我们在其中引入了 Agentic Continual Pre-training（CPT），专门用于培养模型的基础工具使用能力和环境交互直觉。

为此，我们开发了 AgentFounder —— 一套全自动、可扩展的数据合成流水线，基于以下来源生成高质量代理交互数据：

这些数据被组织成以实体为中心的“开放世界知识记忆”，并通过采样构造多样化的问题-答案对，模拟真实研究场景。

我们构建了三类动作数据以丰富行为空间：

该过程完全离线运行，无需依赖昂贵的商业API或人工标注。

为了快速建立初步行为规范，我们采用高质量合成数据进行有监督微调。

我们的核心方法是 High-quality QA 合成引擎，其流程如下：

此外，我们还构建了 学术级复杂问题生成器：

这种方式能稳定生成博士级别研究任务，显著拉高模型能力天花板。

强化学习是让 Agent 实现自我进化的核心环节。我们采用严格 on-policy 的在线策略训练，并在算法与基础设施层面做了多项创新。

训练动态显示，奖励持续上升，策略熵保持高位，表明模型始终处于积极探索状态，未出现早收敛。

我们认为：数据质量和环境稳定性比算法本身更重要。

因此我们构建了四大支撑系统：

系统	功能
🧪 仿真训练环境	基于离线维基数据库 + 自定义工具集，实现高速、可控、低成本训练
🛠️ 统一工具沙盒	缓存、重试、限流一体化处理，并发调用稳定可靠
📊 自动数据管理	实时监控训练反馈，动态调整数据分布，形成“数据-模型”正向飞轮
🔁 异步训练框架	基于 rLLM 实现多实例并行交互，大幅提升采样效率

这套基础设施使得 RL 训练不再是“黑箱实验”，而成为可预测、可调试、可持续迭代的工程流程。