快手 Kwaipilot 团队近日正式开源 KAT-Dev-72B-Exp ——一个专为软件工程任务设计的 720 亿参数开源大模型。该模型在权威代码修复基准 SWE-Bench Verified 上取得了 74.6% 的准确率,评估严格采用 SWE-agent 脚手架,结果可复现、可验证。
KAT-Dev-72B-Exp 是 KAT-Coder 系列的实验性强化学习(RL),旨在探索大规模 RL 在代码生成与修复中的潜力。此次开源不仅释放模型权重,更揭示了其背后的关键技术创新。

核心技术突破
为支持高效、稳定的强化学习训练,团队在底层架构上进行了两项关键改进:
1. 重写注意力内核
针对长上下文代码任务,团队重构了注意力计算模块,显著提升训练吞吐与内存效率,尤其适配 SWE-agent 这类依赖上下文管理的脚手架环境。
2. 重新设计共享前缀轨迹的训练引擎
在 RL 训练中,多个轨迹常共享相同前缀(如问题描述、代码上下文)。新引擎通过高效复用共享状态,大幅降低计算冗余,加速策略更新。
应对“探索崩溃”:优势分布重塑
在大规模 RL 训练中,模型易陷入“探索崩溃”——即过早收敛到少数高频动作,丧失多样性。为此,团队提出一种基于通过率(pass rate):
- 放大高探索组(高通过率轨迹)
- 抑制低探索组(低通过率或重复失败轨迹)
该策略有效维持了策略的探索能力,同时引导模型聚焦于高质量解决方案,是达成 74.6% 高准确率的关键因素之一。
开源意义
KAT-Dev-72B-Exp 的发布,不仅是模型权重的开放,更是对大规模代码模型强化学习训练范式的一次透明化尝试。研究者可借此:
- 复现 SWE-Bench 高分结果
- 探索 RL 在代码任务中的新训练策略
- 基于 KAT 架构开发更高效的软件工程助手
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















