360

共 1 篇文章

排序

发布更新浏览点赞

360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

360推出Light-R1-32B：通过SFT和DPO以低成本超越DeepSeek-R1-Distill-Qwen-32B

在数学竞赛 AIME24 上，尽管许多研究者尝试在 72B 或更小的模型上复现 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分，但一直未能成功。模型集成模型推出日期 ...

大语言模型 # 360 # Light-R1-32B # 推理模型

1年前

03860