AI公司“月之暗面”正式发布了其最新研究成果——Kimi-Researcher,一款基于端到端强化学习(Reinforcement Learning, RL)训练的自主智能体系统。该系统展现出强大的多轮搜索与推理能力,在多个复杂任务中取得了当前最先进的表现。(加入候补名单)

这一成果不仅标志着强化学习在智能体领域的新突破,也为未来通用AI代理的发展提供了重要参考。
Kimi-Researcher 是什么?
Kimi-Researcher 是一个具备多步骤规划、推理与工具使用能力的自主智能体,专为解决复杂现实任务而设计。它能够:
- 自主执行多达 70+ 次网络搜索;
- 平均每次任务探索超过 200 个网页链接;
- 进行平均 23 步的推理流程;
- 在多种专业性测试中表现出色。
它基于 Kimi k 系列模型的内部版本构建,并通过完全端到端的强化学习方式进行训练,实现了显著的能力跃升。
核心性能表现
Kimi-Researcher 在多个权威测试基准上展现了卓越的表现:
| 测试项目 | 表现 |
|---|---|
| Humanity's Last Exam (HLE) | Pass@1 分数达 26.9%,Pass@4 达 40.17%,目前最优结果。 |
| xbench-DeepSearch | Pass@1 分数 69%(四次运行平均),超越主流模型如 o3。 |
| FRAMES / Seal-0 / SimpleQA | 在多轮搜索、事实推理等任务中同样表现强劲。 |
这些成绩表明,Kimi-Researcher 已能在长时程、高复杂度任务中稳定输出高质量答案。
技术亮点:端到端强化学习的成功实践
✅ 使用的三大核心工具:
- 实时并行搜索工具
- 基于文本的浏览器交互工具
- 自动代码执行模块
这些工具让 Kimi-Researcher 能够像人类研究员一样进行信息检索、浏览网页、分析数据、编写脚本等操作。
✅ 训练方式:纯端到端 RL
与传统的监督微调(SFT)或模块化工作流不同,Kimi-Researcher 完全依靠强化学习进行训练。这种方式具有以下优势:
- 不依赖人工标注数据;
- 支持长时程策略学习;
- 更好适应动态环境与工具更新;
- 所有技能(规划、感知、工具使用)统一建模,无需硬编码规则。
强化学习带来的挑战与解决方案
尽管端到端强化学习潜力巨大,但在实际应用中也面临多重挑战:
| 挑战 | 解决方案 |
|---|---|
| 动态环境适应 | 设计泛化性强的任务,使模型适应变化中的查询结果。 |
| 长时程任务管理 | 引入上下文管理机制,支持长达50步以上的推理轨迹。 |
| 数据稀缺 | 构建自动化合成数据流水线,生成大量高质量问题-答案对。 |
| 训练效率瓶颈 | 优化滚动策略,实现异步处理、部分轨迹回放,提升GPU利用率。 |
通过这些创新方法,团队成功提升了模型的学习效率与泛化能力。
训练细节揭秘
🧪 数据构建策略
为了应对传统RL数据集匮乏的问题,团队开发了两个互补的数据源:
- 工具中心任务套件:设计需调用特定工具才能完成的任务,迫使模型学会有效协调各类工具。
- 推理密集型任务集:涵盖数学、编程、搜索等需要深度推理的场景,增强模型的认知能力。
整个数据集由全自动管道生成,并引入严格的验证机制确保质量。
🎯 训练方法
采用经典的 REINFORCE 算法,结合以下优化手段:
- 在线策略训练:保证每条轨迹都来自模型自身的决策分布。
- 负样本控制:合理丢弃无效轨迹,避免模型陷入低效学习。
- 格式与正确性奖励机制:惩罚格式错误,奖励接近真实答案的结果。
- gamma 衰减机制:鼓励模型找到更短、更高效的推理路径。
上下文管理:支撑长时程推理的关键
面对长时程任务可能带来的超大上下文压力,团队设计了专门的上下文管理机制:
- 动态保留关键信息;
- 自动清理冗余内容;
- 支持单次推理流程扩展至 50步以上。
实验显示,启用该机制后,模型可多进行约 30% 的推理步骤,显著提升了整体任务完成率。
大规模智能体训练基础设施
为了支撑如此复杂的训练流程,月之暗面还开发了一套专用基础设施,包括:
- 异步滚动系统:实现演员-环境-奖励计算三者并行,提升资源利用率;
- 轮次级部分滚动机制:对耗时较长的任务分段处理,加速训练进程;
- 统一沙箱架构 + Kubernetes 调度:保障训练稳定性与容错能力;
- MCP协议通信:实现智能体与工具之间的高效、有状态交互。
这套系统为大规模智能体训练提供了坚实的技术基础。
新兴能力:从数据中学到的“智慧”
在训练过程中,Kimi-Researcher 展现出一些令人惊喜的“涌现能力”,例如:
- 面对冲突信息时,能通过自我纠正机制达成一致结论;
- 在复杂搜索任务中,逐步发展出更高效的推理与工具使用策略。
这些能力并非显式编程所得,而是通过长期训练自然形成的高级行为,是真正意义上的“智能涌现”。
应用前景与未来计划
Kimi-Researcher 目前已开始向用户逐步开放,用户可在 Kimi 平台内直接体验其深度研究能力。
它代表着月之暗面对未来“通用智能体”的早期探索方向:
- 从专注搜索与推理,走向更多元化的工具集成;
- 从单一任务处理,迈向跨领域协作;
- 从封闭模型训练,过渡到开放社区共建。
此外,团队计划在未来几个月内开源 Kimi-Researcher 的基础预训练模型和强化学习模型,推动智能体领域的进一步发展。















