快手开源 KAT-Dev-72B-Exp:72B 参数代码模型,SWE-Bench 准确率达 74.6%

大语言模型2个月前发布 小马良
39 0

快手 Kwaipilot 团队近日正式开源 KAT-Dev-72B-Exp ——一个专为软件工程任务设计的 720 亿参数开源大模型。该模型在权威代码修复基准 SWE-Bench Verified 上取得了 74.6% 的准确率,评估严格采用 SWE-agent 脚手架,结果可复现、可验证。

KAT-Dev-72B-Exp 是 KAT-Coder 系列的实验性强化学习(RL),旨在探索大规模 RL 在代码生成与修复中的潜力。此次开源不仅释放模型权重,更揭示了其背后的关键技术创新。

快手开源 KAT-Dev-72B-Exp:72B 参数代码模型,SWE-Bench 准确率达 74.6%

核心技术突破

为支持高效、稳定的强化学习训练,团队在底层架构上进行了两项关键改进:

1. 重写注意力内核

针对长上下文代码任务,团队重构了注意力计算模块,显著提升训练吞吐与内存效率,尤其适配 SWE-agent 这类依赖上下文管理的脚手架环境。

2. 重新设计共享前缀轨迹的训练引擎

在 RL 训练中,多个轨迹常共享相同前缀(如问题描述、代码上下文)。新引擎通过高效复用共享状态,大幅降低计算冗余,加速策略更新。

应对“探索崩溃”:优势分布重塑

在大规模 RL 训练中,模型易陷入“探索崩溃”——即过早收敛到少数高频动作,丧失多样性。为此,团队提出一种基于通过率(pass rate):

  • 放大高探索组(高通过率轨迹)
  • 抑制低探索组(低通过率或重复失败轨迹)

该策略有效维持了策略的探索能力,同时引导模型聚焦于高质量解决方案,是达成 74.6% 高准确率的关键因素之一。

开源意义

KAT-Dev-72B-Exp 的发布,不仅是模型权重的开放,更是对大规模代码模型强化学习训练范式的一次透明化尝试。研究者可借此:

  • 复现 SWE-Bench 高分结果
  • 探索 RL 在代码任务中的新训练策略
  • 基于 KAT 架构开发更高效的软件工程助手
© 版权声明

相关文章

暂无评论

none
暂无评论...