深度研究代理WebThinker：为大型推理模型提供深度研究能力

210 0

中国人民大学、智源研究院和华为的研究人员推出一个深度研究代理WebThinker，旨在为大型推理模型（Large Reasoning Models, LRMs）提供深度研究能力。WebThinker 通过自主搜索网络、导航网页以及在推理过程中起草研究报告，显著提升了 LRMs 在复杂知识密集型任务中的表现。

GitHub：https://github.com/RUC-NLPIR/WebThinker
模型：https://huggingface.co/collections/lixiaoxi45/webthinker-6812d5fd1287ee53d68f0557

例如，用户需要解决一个复杂的科学问题，例如：“在佛罗里达州，非本地的 clownfish（小丑鱼）首次被发现的具体地点和邮政编码是什么？”传统的推理模型可能无法直接回答这个问题，因为它们依赖于内部知识，而 WebThinker 可以通过自主搜索网络，找到相关的网页信息，并从中提取答案（如邮政编码 34689）。此外，WebThinker 还可以生成包含详细信息的研究报告，而不仅仅是简单的答案。

主要功能

自主搜索与导航：WebThinker 能够自主地在互联网上搜索信息，导航网页，并通过点击链接或按钮来深入探索相关内容。
实时报告撰写：WebThinker 可以在推理过程中实时撰写研究报告，包括起草、检查和编辑报告内容。
深度信息整合：WebThinker 不仅能够提供直接答案，还能生成包含详细背景信息和分析的综合研究报告。
强化学习优化：通过基于强化学习的训练策略，WebThinker 能够不断优化其工具使用能力，提高在复杂任务中的表现。

主要特点

Deep Web Explorer：WebThinker 配备了一个深度网页探索模块，使 LRMs 能够动态地搜索、导航网页并提取信息，填补知识空白。
自主思考-搜索-撰写策略：WebThinker 采用了一种自主的思考-搜索-撰写策略，允许模型在推理过程中实时撰写报告，确保报告的全面性和连贯性。
强化学习训练：WebThinker 使用基于强化学习的训练策略，通过在线直接偏好优化（DPO）来提高模型在复杂任务中的表现。
多语言和多领域支持：WebThinker 能够处理多种语言和领域的复杂问题，生成高质量的研究报告。

工作原理

推理过程：
- WebThinker 在推理过程中，遇到知识空白时会调用 Deep Web Explorer 模块，通过搜索和导航网页来获取信息。
- 搜索结果会被送回推理模型，模型根据这些信息继续推理，直到生成最终答案或完成报告。
报告撰写：
- 在报告生成模式下，WebThinker 会根据用户的研究问题和计划，逐步搜索相关信息，并实时撰写报告。
- 报告撰写工具包括：起草特定章节、检查当前报告和编辑报告，确保报告的完整性和连贯性。
强化学习：
- WebThinker 使用基于强化学习的训练策略，通过在线直接偏好优化（DPO）来优化模型的工具使用能力。
- 模型在训练过程中会不断学习如何更有效地使用搜索和报告撰写工具，以提高任务表现。

应用场景

复杂问题求解：
- WebThinker 可以解决需要多步推理和外部知识的复杂问题，例如科学问题、数学问题或跨学科问题。
- 例如，在 GAIA 数据集上，WebThinker 能够通过搜索和推理找到非本地 clownfish 的具体发现地点和邮政编码。
科学研究报告生成：
- WebThinker 可以生成包含详细信息和分析的科学研究报告，支持用户的研究需求。
- 例如，在 Glaive 数据集上，WebThinker 能够生成关于优化 3D 打印机器人节点的综合研究报告。
教育和学术研究：
- WebThinker 可以帮助学生和研究人员快速获取和整合研究信息，生成高质量的研究报告。
- 例如，WebThinker 可以帮助学生撰写关于特定科学主题的报告，提供详细的背景信息和分析。
企业决策支持：
- WebThinker 可以用于企业决策支持，通过搜索和分析网络信息，为决策者提供全面的市场分析和研究报告。
- 例如，WebThinker 可以生成关于市场趋势、竞争对手分析或新产品开发的研究报告。