月之暗面推出的端到端强化学习智能体Kimi-Researcher

早报6个月前发布 小马良
173 0

AI公司“月之暗面”正式发布了其最新研究成果——Kimi-Researcher,一款基于端到端强化学习(Reinforcement Learning, RL)训练的自主智能体系统。该系统展现出强大的多轮搜索与推理能力,在多个复杂任务中取得了当前最先进的表现。(加入候补名单

这一成果不仅标志着强化学习在智能体领域的新突破,也为未来通用AI代理的发展提供了重要参考。

Kimi-Researcher 是什么?

Kimi-Researcher 是一个具备多步骤规划、推理与工具使用能力的自主智能体,专为解决复杂现实任务而设计。它能够:

  • 自主执行多达 70+ 次网络搜索;
  • 平均每次任务探索超过 200 个网页链接;
  • 进行平均 23 步的推理流程;
  • 在多种专业性测试中表现出色。

它基于 Kimi k 系列模型的内部版本构建,并通过完全端到端的强化学习方式进行训练,实现了显著的能力跃升。

核心性能表现

Kimi-Researcher 在多个权威测试基准上展现了卓越的表现:

测试项目表现
Humanity's Last Exam (HLE)Pass@1 分数达 26.9%,Pass@4 达 40.17%,目前最优结果。
xbench-DeepSearchPass@1 分数 69%(四次运行平均),超越主流模型如 o3。
FRAMES / Seal-0 / SimpleQA在多轮搜索、事实推理等任务中同样表现强劲。

这些成绩表明,Kimi-Researcher 已能在长时程、高复杂度任务中稳定输出高质量答案。

技术亮点:端到端强化学习的成功实践

✅ 使用的三大核心工具:

  • 实时并行搜索工具
  • 基于文本的浏览器交互工具
  • 自动代码执行模块

这些工具让 Kimi-Researcher 能够像人类研究员一样进行信息检索、浏览网页、分析数据、编写脚本等操作。

✅ 训练方式:纯端到端 RL

与传统的监督微调(SFT)或模块化工作流不同,Kimi-Researcher 完全依靠强化学习进行训练。这种方式具有以下优势:

  • 不依赖人工标注数据;
  • 支持长时程策略学习;
  • 更好适应动态环境与工具更新;
  • 所有技能(规划、感知、工具使用)统一建模,无需硬编码规则。

强化学习带来的挑战与解决方案

尽管端到端强化学习潜力巨大,但在实际应用中也面临多重挑战:

挑战解决方案
动态环境适应设计泛化性强的任务,使模型适应变化中的查询结果。
长时程任务管理引入上下文管理机制,支持长达50步以上的推理轨迹。
数据稀缺构建自动化合成数据流水线,生成大量高质量问题-答案对。
训练效率瓶颈优化滚动策略,实现异步处理、部分轨迹回放,提升GPU利用率。

通过这些创新方法,团队成功提升了模型的学习效率与泛化能力。

训练细节揭秘

🧪 数据构建策略

为了应对传统RL数据集匮乏的问题,团队开发了两个互补的数据源:

  1. 工具中心任务套件:设计需调用特定工具才能完成的任务,迫使模型学会有效协调各类工具。
  2. 推理密集型任务集:涵盖数学、编程、搜索等需要深度推理的场景,增强模型的认知能力。

整个数据集由全自动管道生成,并引入严格的验证机制确保质量。

🎯 训练方法

采用经典的 REINFORCE 算法,结合以下优化手段:

  • 在线策略训练:保证每条轨迹都来自模型自身的决策分布。
  • 负样本控制:合理丢弃无效轨迹,避免模型陷入低效学习。
  • 格式与正确性奖励机制:惩罚格式错误,奖励接近真实答案的结果。
  • gamma 衰减机制:鼓励模型找到更短、更高效的推理路径。

上下文管理:支撑长时程推理的关键

面对长时程任务可能带来的超大上下文压力,团队设计了专门的上下文管理机制:

  • 动态保留关键信息;
  • 自动清理冗余内容;
  • 支持单次推理流程扩展至 50步以上

实验显示,启用该机制后,模型可多进行约 30% 的推理步骤,显著提升了整体任务完成率。

大规模智能体训练基础设施

为了支撑如此复杂的训练流程,月之暗面还开发了一套专用基础设施,包括:

  • 异步滚动系统:实现演员-环境-奖励计算三者并行,提升资源利用率;
  • 轮次级部分滚动机制:对耗时较长的任务分段处理,加速训练进程;
  • 统一沙箱架构 + Kubernetes 调度:保障训练稳定性与容错能力;
  • MCP协议通信:实现智能体与工具之间的高效、有状态交互。

这套系统为大规模智能体训练提供了坚实的技术基础。

新兴能力:从数据中学到的“智慧”

在训练过程中,Kimi-Researcher 展现出一些令人惊喜的“涌现能力”,例如:

  • 面对冲突信息时,能通过自我纠正机制达成一致结论;
  • 在复杂搜索任务中,逐步发展出更高效的推理与工具使用策略。

这些能力并非显式编程所得,而是通过长期训练自然形成的高级行为,是真正意义上的“智能涌现”。

应用前景与未来计划

Kimi-Researcher 目前已开始向用户逐步开放,用户可在 Kimi 平台内直接体验其深度研究能力。

它代表着月之暗面对未来“通用智能体”的早期探索方向:

  • 从专注搜索与推理,走向更多元化的工具集成;
  • 从单一任务处理,迈向跨领域协作;
  • 从封闭模型训练,过渡到开放社区共建。

此外,团队计划在未来几个月内开源 Kimi-Researcher 的基础预训练模型和强化学习模型,推动智能体领域的进一步发展。

© 版权声明

相关文章

暂无评论

none
暂无评论...