月之暗面推出Kimi-Dev-72B：为软件工程任务打造的新一代开源编码大模型

349 0

月之暗面推出一款全新的开源编码大语言模型 Kimi-Dev-72B，专为软件工程任务设计。该模型基于 Qwen2.5-72B 微调而来，在 SWE-bench Verified 测试中取得了 60.4% 的通过率，刷新了开源模型在该基准上的性能记录。

项目主页：https://moonshotai.github.io/Kimi-Dev
GitHub：https://github.com/MoonshotAI/Kimi-Dev
模型：https://huggingface.co/moonshotai/Kimi-Dev-72B

这一成绩不仅标志着代码理解与生成能力的重大进步，也展现了其在实际开发场景中的实用潜力。

性能领先：SWE-bench 验证集上表现突出

在衡量代码修复能力的标准测试集 SWE-bench Verified 上，Kimi-Dev-72B 取得了目前开源模型中最佳的成绩——60.4% 的问题成功修复率，超越了所有已知竞品。

这一结果得益于其在训练过程中引入的大规模强化学习机制，并结合真实代码仓库的自动修补流程。只有当整个测试套件通过时，模型才会获得正向反馈，从而确保输出方案的准确性和稳定性。

技术亮点：双角色协作 + 强化学习 + 自我博弈

1. BugFixer 与 TestWriter：协同工作的双人组合

Kimi-Dev-72B 的核心设计理念是“BugFixer”与“TestWriter”的双角色机制：

BugFixer 负责识别并修复代码中的错误；
TestWriter 则负责编写能够重现 bug 的单元测试。

这两个角色相辅相成：一个成功的补丁应能通过对应的测试用例；而一个有效的测试用例应在应用正确补丁后通过。这种互补关系使模型在代码理解和验证两个维度上都能保持高水准。

两者的处理流程一致，分为两个阶段：

定位需要修改的文件；
执行正确的代码变更。

这种统一架构简化了训练流程，也为后续优化打下基础。

2. 中间训练：提升代码修复与测试编写的先验能力

为了增强模型对实际开发任务的理解能力，团队使用约 1500 亿 token 的高质量数据 对 Kimi-Dev-72B 进行中间训练。

训练数据来源于 GitHub 上的真实问题报告和 Pull Request 提交，涵盖大量真实世界的 bug 修复与测试用例编写案例。这些数据经过严格清洗，避免与 SWE-bench Verified 数据重叠，保证评估的公正性。

通过这段训练，模型掌握了开发者常见的行为模式，为其后续的强化学习打下了坚实基础。

3. 强化学习：聚焦代码编辑能力提升

在完成监督微调之后，Kimi-Dev-72B 已具备较强的文件定位能力。因此，强化学习阶段主要聚焦于代码编辑能力的提升。

采用的方法包括：

仅基于结果的奖励机制：只根据最终 Docker 执行结果（通过或失败）进行奖励反馈，不依赖格式或过程评分；
高效提示筛选：过滤掉多次尝试失败的无效提示，提升训练效率；
课程学习与正例强化：逐步增加任务难度，并将成功样本纳入后续训练批次，强化模型的成功路径。

此外，高度并行化的内部代理基础设施，使得大规模训练成为可能，显著提升了训练效率与模型表现。

4. 测试时自我博弈：协调 Bug 修复与测试生成

在推理阶段，Kimi-Dev-72B 采用一种自我博弈机制来协调 BugFixer 和 TestWriter 的能力。

每个问题会生成最多 40 个补丁候选和 40 个测试候选，通过多轮交互筛选出最优解。这种机制有效提升了修复成功率，并增强了模型对复杂问题的适应能力。

开源开放：欢迎开发者共建生态

Kimi-Dev-72B 已全面开源，相关资源包括：

模型权重
训练与推理代码
技术白皮书（即将发布）

月之暗面鼓励开发者与研究人员下载、部署并参与后续改进工作。GitHub 和 Hugging Face 平台均已提供模型访问入口。

作为一个开源项目，Kimi-Dev-72B 的发展离不开社区的持续贡献。月之暗面期待更多开发者将其应用于实际项目中，推动其在软件工程领域的进一步落地。

展望未来：更深入地融入开发者工作流

接下来，月之暗面将继续探索 Kimi-Dev-72B 在更广泛软件工程任务中的应用，包括：

与主流 IDE（如 VSCode、JetBrains 系列）集成；
支持 Git 版本控制系统的自动化建议；
无缝接入 CI/CD 管道，辅助自动化构建与测试。

月之暗面还将持续优化模型性能，开展红队测试以发现潜在问题，并计划在未来发布更强大的迭代版本。

大语言模型 # Kimi-Dev-72B # 月之暗面

文章版权归作者所有，未经允许请勿转载。

谷歌推出Gemma系列最新模型Gemma 3，号称是全球最佳单加速器模型

大语言模型 # Gemma 3 # 多语言大语言模型 # 大语言模型

12个月前

02580

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

大语言模型 # Hunyuan-TurboS # 腾讯

10个月前

02920

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

大语言模型 # LionGuard 2 # 内容审核防护模型

7个月前

03030

阿里正式发布 Qwen3 Embedding和Reranker 系列模型：专为文本表征与检索排序设计

大语言模型 # Qwen3 Embedding # Qwen3 Reranker # 阿里

9个月前

01490

暂无评论

暂无评论...

月之暗面推出Kimi-Dev-72B：为软件工程任务打造的新一代开源编码大模型

性能领先：SWE-bench 验证集上表现突出

技术亮点：双角色协作 + 强化学习 + 自我博弈

1. BugFixer 与 TestWriter：协同工作的双人组合

2. 中间训练：提升代码修复与测试编写的先验能力

3. 强化学习：聚焦代码编辑能力提升

4. 测试时自我博弈：协调 Bug 修复与测试生成

开源开放：欢迎开发者共建生态

展望未来：更深入地融入开发者工作流

微软与 OpenAI 支持，哈佛法学院发起：首个大规模公共 AI 图书数据集正式开源

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

相关文章

谷歌推出Gemma系列最新模型Gemma 3，号称是全球最佳单加速器模型

腾讯推出大型混合 Transformer-Mamba 专家混合（MoE）模型Hunyuan-TurboS

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

阿里正式发布 Qwen3 Embedding和Reranker 系列模型：专为文本表征与检索排序设计

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

ComfyUI 更新速递：Qwen Image ControlNet/LoRA、EasyCache 与上下文窗口支持

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

月之暗面推出Kimi-Dev-72B：为软件工程任务打造的新一代开源编码大模型

性能领先：SWE-bench 验证集上表现突出

技术亮点：双角色协作 + 强化学习 + 自我博弈

1. BugFixer 与 TestWriter：协同工作的双人组合

2. 中间训练：提升代码修复与测试编写的先验能力

3. 强化学习：聚焦代码编辑能力提升

4. 测试时自我博弈：协调 Bug 修复与测试生成

开源开放：欢迎开发者共建生态

展望未来：更深入地融入开发者工作流

微软与 OpenAI 支持，哈佛法学院发起：首个大规模公共 AI 图书数据集正式开源

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw