360推出Light-R1-32B:通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B在数学竞赛 AIME24 上,尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分,但一直未能成功。 模型 集成模型 推出日期 ...大语言模型# 360# Light-R1-32B# 推理模型2个月前0920