快手开源 KAT-Dev-72B-Exp：72B 参数代码模型，SWE-Bench 准确率达 74.6%

大语言模型6个月前发布小马良

56 0

快手 Kwaipilot 团队近日正式开源 KAT-Dev-72B-Exp ——一个专为软件工程任务设计的 720 亿参数开源大模型。该模型在权威代码修复基准 SWE-Bench Verified 上取得了 74.6% 的准确率，评估严格采用 SWE-agent 脚手架，结果可复现、可验证。

模型：https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp

KAT-Dev-72B-Exp 是 KAT-Coder 系列的实验性强化学习（RL），旨在探索大规模 RL 在代码生成与修复中的潜力。此次开源不仅释放模型权重，更揭示了其背后的关键技术创新。

快手开源 KAT-Dev-72B-Exp：72B 参数代码模型，SWE-Bench 准确率达 74.6%

核心技术突破

为支持高效、稳定的强化学习训练，团队在底层架构上进行了两项关键改进：

1. 重写注意力内核

针对长上下文代码任务，团队重构了注意力计算模块，显著提升训练吞吐与内存效率，尤其适配 SWE-agent 这类依赖上下文管理的脚手架环境。

2. 重新设计共享前缀轨迹的训练引擎

在 RL 训练中，多个轨迹常共享相同前缀（如问题描述、代码上下文）。新引擎通过高效复用共享状态，大幅降低计算冗余，加速策略更新。

应对“探索崩溃”：优势分布重塑

在大规模 RL 训练中，模型易陷入“探索崩溃”——即过早收敛到少数高频动作，丧失多样性。为此，团队提出一种基于通过率（pass rate）：

放大高探索组（高通过率轨迹）
抑制低探索组（低通过率或重复失败轨迹）

该策略有效维持了策略的探索能力，同时引导模型聚焦于高质量解决方案，是达成 74.6% 高准确率的关键因素之一。

开源意义

KAT-Dev-72B-Exp 的发布，不仅是模型权重的开放，更是对大规模代码模型强化学习训练范式的一次透明化尝试。研究者可借此：

复现 SWE-Bench 高分结果
探索 RL 在代码任务中的新训练策略
基于 KAT 架构开发更高效的软件工程助手

大语言模型 # KAT-Dev-72B-Exp # 快手

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

大语言模型 # 360 # Light-R1-32B # 推理模型

1年前

03870

Instinct：由 Continue 打造的全球首个开放 Next Edit 模型

Instinct：由 Continue 打造的全球首个开放 Next Edit 模型

大语言模型 # Continue # Instinct # Next Edit 模型

7个月前

02990

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

大语言模型 # MiniMax # MiniMax-M1

10个月前

02890

阿里推出 Qwen3 系列大模型：开源 8 款模型，性能飞跃，多语言支持，推理能力显著提升

阿里推出 Qwen3 系列大模型：开源 8 款模型，性能飞跃，多语言支持，推理能力显著提升

大语言模型 # QWEN 团队 # 阿里巴巴

11个月前

06040

暂无评论

none

暂无评论...