在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。
模型 | 集成模型 | 推出日期 | AIME24 | AIME25 |
---|---|---|---|---|
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 25.1.20 | 70.0 | 54.1 |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 25.1.20 | 72.6 | 54.9 |
LIMO (32B) | Qwen2.5-32B-Instruct | 25.2.4 | 56.3 | 47.1 |
s1.1-32B | Qwen2.5-32B-Instruct | 25.2.8 | 64.7 | 47.8 |
OpenThinker-32B | Qwen2.5-32B-Instruct | 25.2.12 | 66.0 | 50.9 |
Light-R1-32B (ours) | Qwen2.5-32B-Instruct | 25.3.4 | 76.6 | 64.6 |
360推出了 Light-R1-32B,它基于 Qwen2.5-32B-Instruct 训练,在 AIME24 上取得了 76.6 分的优异成绩。通过课程式 SFT(Supervised Fine-Tuning)和 DPO(Direct Preference Optimization)蒸馏技术,Light-R1-32B 不仅超越了 DeepSeek-R1-Distill-Qwen-32B,还通过模型合并进一步提升了性能。更重要的是,整个训练过程仅需约 1000 美元的成本。
项目亮点
-
高性能与低成本:Light-R1-32B 从零开始(无长 COT 模型)训练,通过课程 SFT 和 DPO 实现了高性能,训练成本仅需约 1000 美元。 -
开源数据与代码:项目第一天,我们便开源了所有课程 SFT 和 DPO 的训练数据集,以及基于 360-LLaMA-Factory 的训练代码,助力更多研究者复现和改进。 -
透明方法与快速训练:在 12 台 H800 机器上,预计训练时间不超过 6 小时,提供了一种高效且透明的长 COT 模型训练方法。
Light-R1 不仅展示了从零开始训练强大长 COT 模型的可行性,还为未来的研究提供了一个低成本、高效率的范例。
发布详情
-
模型发布:Light-R1-32B 模型已在 Hugging Face 上线。 -
数据集开源:课程 SFT 和 DPO 的数据集已公开。 -
训练代码:基于 360-LLaMA-Factory 的训练脚本位于 train-scripts。 -
评估代码与日志:基于 DeepScaleR 的评估代码位于 deepscaler-release,并附有 Light-R1-32B 的评估日志(如 AIME24)。 -
评分标准:所有分数均为 64 次运行的平均值;公共模型分数取自其评估结果,若不存在则取 64 次运行平均值。我们发现 16 次运行平均值可能导致 2-3 分的偏差。 -
技术报告:正在撰写中,将详细阐述项目的技术细节。
推理注意事项
-
思考能力:Light-R1-32B 的思考能力仅通过数学数据训练,因此并非在所有场景中都会主动思考。 -
强制思考:我们通过在聊天模板中硬编码 <think>
标记,强制模型在生成输出前进行思考,类似于 DeepSeek 的方法。 -
推理工具:建议使用 vLLM 或 SGLang 进行推理。Light-R1-32B 继承了 Qwen 模型的聊天模板,其中 <think>
和</think>
被添加为特殊标记。
通过课程 SFT 和 DPO 进行后训练
模型 | AIME24 pass@1 (64 平均) | AIME25 | GPQA Diamond |
---|---|---|---|
Qwen2.5-32B-Instruct | 16.6 | 13.6 | 48.8 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 54.9 | 62.1 |
Light-R1-SFT-stage1 | 69.0 | 57.4 | 64.3 |
Light-R1-SFT-stage2 | 73.0 | 64.3 | 60.6 |
Light-R1-DPO | 75.8 | 63.4 | 61.8 |
Light-R1-32B | 76.6 | 64.6 | 61.8 |
数学数据来源
训练问题收集自多个公共数学数据集,包括 OpenR1-Math-220k、OpenThoughts-114k、LIMO、OpenMathInstruct-2、s1K-1.1、Omni-MATH、hendrycks_math 和 AIME(截至 2023 年)。我们针对常见的推理基准(如 AIME24/25、MATH-500 和 GPQA Diamond)对问题进行了净化处理,以避免数据污染。
课程 SFT 和 DPO
-
SFT stage1:我们收集了 DeepSeek-R1 对这些问题的响应,并根据 DeepScaleR-1.5B-Preview 采样的验证和难度级别对其进行了过滤,形成了 76k 的数据集。 -
SFT stage2:在 SFT stage1 之后,我们构建了一个更困难的集合,主要从 76k 数据集中过滤出来,包含 3k 数据。 -
DPO:在 SFT stage2 之后,我们采样了 Light-R1-SFT-stage2 的响应,过滤了每个问题的正确和错误响应,并根据验证结果和 DeepSeek-R1 的响应构建了 DPO 对。DPO 在 360-LLaMA-Factory 中使用序列并行性执行。
训练效率:上述训练步骤预计在 12 个 H800 机器上不到 6 小时即可完成,成本约为 1000 美元。
模型合并
最后,研究团队合并了 SFT-stage2、DPO 和另一个 AIME24 得分为 74.7 的 DPO 版本的模型。两个 DPO 版本的区别在于,其中一个数据在拒绝的响应中跳过了特殊标记。合并后的模型表现出了进一步的性能提升。
评估结果:
在未训练过的科学问题 GPQA 评估中,尽管存在一定程度的遗忘,但 Light-R1-32B 仍然表现出强大的泛化能力。
数据净化
360对开源数据集进行了仔细评估,以避免数据污染。虽然预训练期间某些污染可能不可避免,但在后训练中,基准数据的纯净性至关重要。例如,MATH-500 中存在部分重复问题,而 AIME 24 和 25 保持完好。Light-R1-32B 通过精确或 N-gram 匹配进行了彻底的净化。
许可与致谢
-
开源许可:本项目所有发布的材料均遵循 Apache 2.0 许可