360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

94 0

在数学竞赛 AIME24 上，尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分，但一直未能成功。

模型	集成模型	推出日期	AIME24	AIME25
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	25.1.20	70.0	54.1
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	25.1.20	72.6	54.9
LIMO (32B)	Qwen2.5-32B-Instruct	25.2.4	56.3	47.1
s1.1-32B	Qwen2.5-32B-Instruct	25.2.8	64.7	47.8
OpenThinker-32B	Qwen2.5-32B-Instruct	25.2.12	66.0	50.9
Light-R1-32B (ours)	Qwen2.5-32B-Instruct	25.3.4	76.6	64.6

360推出了 Light-R1-32B，它基于 Qwen2.5-32B-Instruct 训练，在 AIME24 上取得了 76.6 分的优异成绩。通过课程式 SFT（Supervised Fine-Tuning）和 DPO（Direct Preference Optimization）蒸馏技术，Light-R1-32B 不仅超越了 DeepSeek-R1-Distill-Qwen-32B，还通过模型合并进一步提升了性能。更重要的是，整个训练过程仅需约 1000 美元的成本。

GitHub：https://github.com/Qihoo360/Light-R1
模型：https://huggingface.co/qihoo360/Light-R1-32B

项目亮点

高性能与低成本：Light-R1-32B 从零开始（无长 COT 模型）训练，通过课程 SFT 和 DPO 实现了高性能，训练成本仅需约 1000 美元。
开源数据与代码：项目第一天，我们便开源了所有课程 SFT 和 DPO 的训练数据集，以及基于 360-LLaMA-Factory 的训练代码，助力更多研究者复现和改进。
透明方法与快速训练：在 12 台 H800 机器上，预计训练时间不超过 6 小时，提供了一种高效且透明的长 COT 模型训练方法。

Light-R1 不仅展示了从零开始训练强大长 COT 模型的可行性，还为未来的研究提供了一个低成本、高效率的范例。

发布详情

模型发布：Light-R1-32B 模型已在Hugging Face 上线。
数据集开源：课程 SFT 和 DPO 的数据集已公开。
训练代码：基于 360-LLaMA-Factory 的训练脚本位于 train-scripts。
评估代码与日志：基于 DeepScaleR 的评估代码位于 deepscaler-release，并附有 Light-R1-32B 的评估日志（如 AIME24）。
评分标准：所有分数均为 64 次运行的平均值；公共模型分数取自其评估结果，若不存在则取 64 次运行平均值。我们发现 16 次运行平均值可能导致 2-3 分的偏差。
技术报告：正在撰写中，将详细阐述项目的技术细节。

推理注意事项

思考能力：Light-R1-32B 的思考能力仅通过数学数据训练，因此并非在所有场景中都会主动思考。
强制思考：我们通过在聊天模板中硬编码 <think> 标记，强制模型在生成输出前进行思考，类似于 DeepSeek 的方法。
推理工具：建议使用 vLLM 或 SGLang 进行推理。Light-R1-32B 继承了 Qwen 模型的聊天模板，其中 <think> 和 </think> 被添加为特殊标记。

通过课程 SFT 和 DPO 进行后训练

模型	AIME24 pass@1 (64 平均)	AIME25	GPQA Diamond
Qwen2.5-32B-Instruct	16.6	13.6	48.8
DeepSeek-R1-Distill-Qwen-32B	72.6	54.9	62.1
Light-R1-SFT-stage1	69.0	57.4	64.3
Light-R1-SFT-stage2	73.0	64.3	60.6
Light-R1-DPO	75.8	63.4	61.8
Light-R1-32B	76.6	64.6	61.8

数学数据来源

训练问题收集自多个公共数学数据集，包括 OpenR1-Math-220k、OpenThoughts-114k、LIMO、OpenMathInstruct-2、s1K-1.1、Omni-MATH、hendrycks_math 和 AIME（截至 2023 年）。我们针对常见的推理基准（如 AIME24/25、MATH-500 和 GPQA Diamond）对问题进行了净化处理，以避免数据污染。

课程 SFT 和 DPO

SFT stage1：我们收集了 DeepSeek-R1 对这些问题的响应，并根据 DeepScaleR-1.5B-Preview 采样的验证和难度级别对其进行了过滤，形成了 76k 的数据集。
SFT stage2：在 SFT stage1 之后，我们构建了一个更困难的集合，主要从 76k 数据集中过滤出来，包含 3k 数据。
DPO：在 SFT stage2 之后，我们采样了 Light-R1-SFT-stage2 的响应，过滤了每个问题的正确和错误响应，并根据验证结果和 DeepSeek-R1 的响应构建了 DPO 对。DPO 在 360-LLaMA-Factory 中使用序列并行性执行。

训练效率：上述训练步骤预计在 12 个 H800 机器上不到 6 小时即可完成，成本约为 1000 美元。