360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。

模型 集成模型 推出日期 AIME24 AIME25
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct 25.1.20 70.0 54.1
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B 25.1.20 72.6 54.9
LIMO (32B) Qwen2.5-32B-Instruct 25.2.4 56.3 47.1
s1.1-32B Qwen2.5-32B-Instruct 25.2.8 64.7 47.8
OpenThinker-32B Qwen2.5-32B-Instruct 25.2.12 66.0 50.9
Light-R1-32B (ours)  Qwen2.5-32B-Instruct 25.3.4 76.6 64.6

360推出了 Light-R1-32B,它基于 Qwen2.5-32B-Instruct 训练,在 AIME24 上取得了 76.6 分的优异成绩。通过课程式 SFT(Supervised Fine-Tuning)和 DPO(Direct Preference Optimization)蒸馏技术,Light-R1-32B 不仅超越了 DeepSeek-R1-Distill-Qwen-32B,还通过模型合并进一步提升了性能。更重要的是,整个训练过程仅需约 1000 美元的成本。

项目亮点

  1. 高性能与低成本:Light-R1-32B 从零开始(无长 COT 模型)训练,通过课程 SFT 和 DPO 实现了高性能,训练成本仅需约 1000 美元。
  2. 开源数据与代码:项目第一天,我们便开源了所有课程 SFT 和 DPO 的训练数据集,以及基于 360-LLaMA-Factory 的训练代码,助力更多研究者复现和改进。
  3. 透明方法与快速训练:在 12 台 H800 机器上,预计训练时间不超过 6 小时,提供了一种高效且透明的长 COT 模型训练方法。

Light-R1 不仅展示了从零开始训练强大长 COT 模型的可行性,还为未来的研究提供了一个低成本、高效率的范例。

发布详情

  • 模型发布:Light-R1-32B 模型已在 Hugging Face 上线。
  • 数据集开源:课程 SFT 和 DPO 的数据集已公开。
  • 训练代码:基于 360-LLaMA-Factory 的训练脚本位于 train-scripts
  • 评估代码与日志:基于 DeepScaleR 的评估代码位于 deepscaler-release,并附有 Light-R1-32B 的评估日志(如 AIME24)。
  • 评分标准:所有分数均为 64 次运行的平均值;公共模型分数取自其评估结果,若不存在则取 64 次运行平均值。我们发现 16 次运行平均值可能导致 2-3 分的偏差。
  • 技术报告:正在撰写中,将详细阐述项目的技术细节。

推理注意事项

  • 思考能力:Light-R1-32B 的思考能力仅通过数学数据训练,因此并非在所有场景中都会主动思考。
  • 强制思考:我们通过在聊天模板中硬编码 <think> 标记,强制模型在生成输出前进行思考,类似于 DeepSeek 的方法。
  • 推理工具:建议使用 vLLM 或 SGLang 进行推理。Light-R1-32B 继承了 Qwen 模型的聊天模板,其中 <think>  </think> 被添加为特殊标记。

通过课程 SFT 和 DPO 进行后训练

模型 AIME24 pass@1 (64 平均) AIME25 GPQA Diamond
Qwen2.5-32B-Instruct 16.6 13.6 48.8
DeepSeek-R1-Distill-Qwen-32B 72.6 54.9 62.1
Light-R1-SFT-stage1 69.0 57.4 64.3
Light-R1-SFT-stage2 73.0 64.3 60.6
Light-R1-DPO 75.8 63.4 61.8
Light-R1-32B 76.6 64.6 61.8

数学数据来源

训练问题收集自多个公共数学数据集,包括 OpenR1-Math-220k、OpenThoughts-114k、LIMO、OpenMathInstruct-2、s1K-1.1、Omni-MATH、hendrycks_math 和 AIME(截至 2023 年)。我们针对常见的推理基准(如 AIME24/25、MATH-500 和 GPQA Diamond)对问题进行了净化处理,以避免数据污染。

课程 SFT 和 DPO

  1. SFT stage1:我们收集了 DeepSeek-R1 对这些问题的响应,并根据 DeepScaleR-1.5B-Preview 采样的验证和难度级别对其进行了过滤,形成了 76k 的数据集。
  2. SFT stage2:在 SFT stage1 之后,我们构建了一个更困难的集合,主要从 76k 数据集中过滤出来,包含 3k 数据。
  3. DPO:在 SFT stage2 之后,我们采样了 Light-R1-SFT-stage2 的响应,过滤了每个问题的正确和错误响应,并根据验证结果和 DeepSeek-R1 的响应构建了 DPO 对。DPO 在 360-LLaMA-Factory 中使用序列并行性执行。

训练效率:上述训练步骤预计在 12 个 H800 机器上不到 6 小时即可完成,成本约为 1000 美元。

模型合并

最后,研究团队合并了 SFT-stage2、DPO 和另一个 AIME24 得分为 74.7 的 DPO 版本的模型。两个 DPO 版本的区别在于,其中一个数据在拒绝的响应中跳过了特殊标记。合并后的模型表现出了进一步的性能提升。

评估结果

在未训练过的科学问题 GPQA 评估中,尽管存在一定程度的遗忘,但 Light-R1-32B 仍然表现出强大的泛化能力。

数据净化

360对开源数据集进行了仔细评估,以避免数据污染。虽然预训练期间某些污染可能不可避免,但在后训练中,基准数据的纯净性至关重要。例如,MATH-500 中存在部分重复问题,而 AIME 24 和 25 保持完好。Light-R1-32B 通过精确或 N-gram 匹配进行了彻底的净化。

许可与致谢

  • 开源许可:本项目所有发布的材料均遵循 Apache 2.0 许可
© 版权声明

相关文章

暂无评论

none
暂无评论...