英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B

大语言模型6个月前发布 小马良
108 0

英伟达近日发布了一款专为复杂推理任务设计的开源模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,该模型参数量为 1.5B,在数学、编程、科学问题和逻辑谜题等任务上表现出色,成为当前同级别中性能最强的推理模型之一。

🧠 模型定位与适用场景

这款模型专注于以下几类高难度推理任务:

  • 数学问题求解(如AIME、AMC、Math等)
  • 编程挑战(CodeContests、Codeforces、HumanEvalPlus 等)
  • STEM 科学推理(GPQA Diamond)
  • 逻辑谜题与指令遵循(IFEval、Reasoning Gym)

适用于科研机构、开发者和AI研究人员在算法探索、教育辅助、代码生成等领域进行实验与开发。

⚠️ 注意:该模型仅限研究与开发使用,不可用于商业用途。

🔍 ProRL 算法:强化学习的新突破

为了提升模型在复杂推理任务中的表现,英伟达引入了全新的 ProRL(Progressive Reinforcement Learning)算法,其核心目标是通过延长训练周期,挖掘更深层次的推理策略。

ProRL 的三大关键技术包括:

  1. 缓解熵崩溃:防止策略在训练过程中过早收敛。
  2. 解耦裁剪与动态采样策略优化(DAPO):提升样本效率和泛化能力。
  3. KL正则化与参考策略重置:保持训练稳定性并避免偏差积累。

得益于这些技术,Nemotron 在多个基准测试中显著超越基础模型 DeepSeek-R1-1.5B,甚至在某些任务上的表现接近或超过 DeepSeek-R1-7B 模型。

📊 性能对比:全面领先

表1|数学领域平均 pass@1 提升显著

模型AIME24AIME25AMCMathMinervaOlympiad平均
DeepSeek-R1-Distill-Qwen-1.5B28.5422.7162.5882.9026.3843.5844.45
Nemotron-Research-Reasoning-Qwen-1.5B48.1333.3379.2991.8947.9860.2260.14

相比 DeepSeek-1.5B,平均提升 14.7%

表2|编程任务表现优异

模型appscodecontestscodeforcestacohumanevalpluslivecodebench平均
DeepSeek-R1-Distill-Qwen-1.5B20.9516.7914.138.0361.7716.8023.08
Nemotron-Research-Reasoning-Qwen-1.5B41.9931.8034.5020.8172.0523.8137.49

编程任务平均提升 13.9%

表3|STEM推理与逻辑谜题表现亮眼

模型GPQAIFEvalReasoning Gymacreboxnetgame_of_life_halting
DeepSeek-R1-Distill-Qwen-1.5B15.8644.054.245.990.003.49
Nemotron-Research-Reasoning-Qwen-1.5B41.7866.0259.0658.577.9152.29

在逻辑谜题任务上提升高达 54.8%

📦 训练数据集开放下载

Nemotron 基于多种高质量推理数据集进行训练,部分数据集已公开提供下载,包括:

  • DeepScaleR-Preview-Dataset
  • Eurus-2-RL-Data
  • Reasoning-gym
  • IFEval
  • SCP-116K

可通过官方链接访问相关资源。

📄 使用许可与道德声明

本模型采用 CC-BY-NC-4.0 授权协议,仅供非商业用途的研究与开发。

英伟达强调 AI 技术的可信性与责任共担原则,要求使用者在部署模型时遵守服务条款,并与内部团队合作,确保符合行业规范与伦理标准。

© 版权声明

相关文章

暂无评论

none
暂无评论...