InfoSeek：智源研究院提出可扩展的深度研究数据合成框架

255 0

在大模型迈向“自主思考”的过程中，一个关键瓶颈逐渐显现： 现有基准任务太简单，无法真正测试模型的复杂推理能力。

Natural Questions、HotpotQA 等主流数据集虽然推动了多跳推理的发展，但其问题结构相对扁平，存在知识泄露、捷径推理等问题，难以衡量模型是否真正具备分解问题、协调子任务、综合跨源证据的能力。

为此，智源研究院提出 InfoSeek —— 一种全新的、可扩展的数据合成框架，专门用于构建结构复杂、层次清晰、内在可验证的深度研究任务。

它不依赖人工标注，而是通过一个双代理系统，从公开网页中自动挖掘实体与关系，递归构建“研究树”，并将其转化为需要多步遍历才能解答的自然语言问题。

这不仅是数据集的升级，更是对“深度研究”能力定义的一次重构。

深度研究（Deep Research）任务的核心特征是：

例如：

“找出一个未被纳入的城市，它位于阿肯色州牛顿县，该城市位于一条被指定为阿肯色州风景道的高速公路上，其中一些也是国家风景道。”

这个问题需要模型：

每一步都依赖前一步的结果，形成严格的推理链。

InfoSeek 的目标是：自动化生成这类高复杂度、无捷径、可验证的问题。其方法由三个关键环节构成。

InfoSeek 使用两个协同工作的代理：

根节点：最终答案
内部节点：中间子问题
边：逻辑依赖关系（如“必须先找到 A，才能确定 B”）

这种树状结构天然支持多步推理，且每一层都构成一个有效的子任务。

传统合成方法常因中间信息过于明确而导致“捷径推理”——模型无需真正推理，仅凭关键词匹配即可作答。

InfoSeek 引入模糊化技术（Fuzzing）：

✅ 例如：“某县内的高速公路”替代“牛顿县的AR-16号公路”

这有效阻断了短路径，迫使模型进行完整遍历。

研究树构建完成后，InfoSeek 将其转换为自然语言问题，并生成对应的推理轨迹（reasoning trace）：

问题生成：使用模板与语言模型将树结构转为流畅问句
轨迹生成：通过拒绝采样（reject sampling），确保每条轨迹：
- 完整覆盖所有推理步骤
- 使用真实可访问的信息源
- 可被独立验证

输出格式包含：问题、标准答案、参考链接、推理路径

特性	说明
层次化约束满足问题（HCSP）	将深度研究形式化为带层级约束的问题，区别于平面或多跳任务
可扩展性强	基于网页自动提取知识，支持快速生成大规模数据
高质量与可控性	复杂度、深度、领域均可调节，适合不同训练目标
内在可验证	每个问题都有明确证据链和验证路径，便于评估
开源开放	框架与数据集均已公开，支持社区复现与扩展

使用 InfoSeek 构建的数据集训练出的模型，在 BrowseComp-Plus 基准上表现出色：

💡 关键发现：

这验证了 InfoSeek 的核心假设：
更好的训练数据，比更大的模型更能提升复杂推理能力。

场景	价值
复杂推理模型训练	提供高质量监督信号，提升模型分解问题与综合证据的能力
AI 助手与搜索引擎	训练能执行真实研究任务的智能体（如自动撰写行业报告）
科学发现辅助	支持跨文献的知识整合与假设生成
政策分析与风险评估	处理多条件、多来源的决策支持任务
学术研究基准	提供新的评估标准，推动“深度研究”能力的标准化评测