InfoSeek:智源研究院提出可扩展的深度研究数据合成框架

大语言模型3个月前发布 小马良
203 0

在大模型迈向“自主思考”的过程中,一个关键瓶颈逐渐显现: 现有基准任务太简单,无法真正测试模型的复杂推理能力。

Natural Questions、HotpotQA 等主流数据集虽然推动了多跳推理的发展,但其问题结构相对扁平,存在知识泄露、捷径推理等问题,难以衡量模型是否真正具备分解问题、协调子任务、综合跨源证据的能力。

为此,智源研究院提出 InfoSeek —— 一种全新的、可扩展的数据合成框架,专门用于构建结构复杂、层次清晰、内在可验证深度研究任务。

它不依赖人工标注,而是通过一个双代理系统,从公开网页中自动挖掘实体与关系,递归构建“研究树”,并将其转化为需要多步遍历才能解答的自然语言问题。

InfoSeek:智源研究院提出可扩展的深度研究数据合成框架

这不仅是数据集的升级,更是对“深度研究”能力定义的一次重构。

什么是深度研究任务?

深度研究(Deep Research)任务的核心特征是:

  • 问题复杂:不能通过一次检索或简单推理解决
  • 结构分层:需将主问题分解为多个逻辑相关的子问题
  • 约束嵌套:答案需满足多个层级的条件组合
  • 证据综合:信息来自不同来源,需交叉验证与整合

例如:

“找出一个未被纳入的城市,它位于阿肯色州牛顿县,该城市位于一条被指定为阿肯色州风景道的高速公路上,其中一些也是国家风景道。”

这个问题需要模型:

  1. 定位“阿肯色州牛顿县”
  2. 找到该县内的高速公路
  3. 筛选出被列为“州级风景道”的路段
  4. 进一步判断哪些同时也是“国家级风景道”
  5. 最终识别出“未被纳入”的城市(即不在现有列表中)

每一步都依赖前一步的结果,形成严格的推理链

InfoSeek 的核心设计

InfoSeek 的目标是:自动化生成这类高复杂度、无捷径、可验证的问题。其方法由三个关键环节构成。

1. 双代理系统:递归构建研究树

InfoSeek 使用两个协同工作的代理:

  • Extractor Agent:从大规模网页中提取实体及其关系(如“X 位于 Y”、“Z 属于类别 W”)
  • Builder Agent:基于提取的知识,递归构建研究树(Research Tree)
  • 根节点:最终答案
  • 内部节点:中间子问题
  • 边:逻辑依赖关系(如“必须先找到 A,才能确定 B”)

这种树状结构天然支持多步推理,且每一层都构成一个有效的子任务。

2. 模糊化中间节点:防止知识泄露

传统合成方法常因中间信息过于明确而导致“捷径推理”——模型无需真正推理,仅凭关键词匹配即可作答。

InfoSeek 引入模糊化技术(Fuzzing)

  • 将中间节点的描述泛化或替换为等价表达
  • 保留语义一致性,但隐藏具体实体名称
  • 确保模型必须通过完整推理路径才能获得答案

✅ 例如:“某县内的高速公路”替代“牛顿县的AR-16号公路”

这有效阻断了短路径,迫使模型进行完整遍历。

3. 自然语言转换 + 轨迹生成

研究树构建完成后,InfoSeek 将其转换为自然语言问题,并生成对应的推理轨迹(reasoning trace)

  • 问题生成:使用模板与语言模型将树结构转为流畅问句
  • 轨迹生成:通过拒绝采样(reject sampling),确保每条轨迹:
    • 完整覆盖所有推理步骤
    • 使用真实可访问的信息源
    • 可被独立验证

输出格式包含:问题、标准答案、参考链接、推理路径

核心特点总结

特性说明
层次化约束满足问题(HCSP)将深度研究形式化为带层级约束的问题,区别于平面或多跳任务
可扩展性强基于网页自动提取知识,支持快速生成大规模数据
高质量与可控性复杂度、深度、领域均可调节,适合不同训练目标
内在可验证每个问题都有明确证据链和验证路径,便于评估
开源开放框架与数据集均已公开,支持社区复现与扩展

实验结果:小模型,大能力

使用 InfoSeek 构建的数据集训练出的模型,在 BrowseComp-Plus 基准上表现出色:

模型参数量准确率
InfoSeeker-3B3B16.5%
Qwen3-32B32B3.5%
SearchR1-32B32B3.9%

💡 关键发现:

  • 3B 模型性能远超 32B 模型,说明训练数据的质量显著影响推理能力
  • InfoSeeker 平均每次任务仅调用 8.24 次搜索,低于对比模型,表明其推理更高效

这验证了 InfoSeek 的核心假设:
更好的训练数据,比更大的模型更能提升复杂推理能力。

应用场景

场景价值
复杂推理模型训练提供高质量监督信号,提升模型分解问题与综合证据的能力
AI 助手与搜索引擎训练能执行真实研究任务的智能体(如自动撰写行业报告)
科学发现辅助支持跨文献的知识整合与假设生成
政策分析与风险评估处理多条件、多来源的决策支持任务
学术研究基准提供新的评估标准,推动“深度研究”能力的标准化评测

为什么重要?

InfoSeek 的意义不仅在于生成了一个新数据集,更在于提出了一套可复制的深度研究建模范式

  1. 从“问答”到“研究”
    不再只是回答问题,而是模拟人类研究者的思维过程。
  2. 从“结果监督”到“过程监督”
    提供完整的推理轨迹,支持对中间步骤的建模与评估。
  3. 从“静态数据”到“动态合成”
    可持续扩展,适应新领域、新任务,降低人工标注成本。

它为下一代 AI 系统——那些能真正“做研究”的智能体——奠定了数据基础。

© 版权声明

相关文章

暂无评论

none
暂无评论...