英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

333 0

英伟达近日发布了 OpenReasoning-Nemotron 模型家族，这是一组专为数学、科学和编程推理任务优化的大语言模型。

模型：https://huggingface.co/collections/nvidia/openreasoning-nemotron-687730dae0170059860f1f01

该系列模型基于 DeepSeek R1 0528 671B 模型生成的高质量推理数据集进行训练，涵盖了 1.5B、7B、14B 和 32B 四种参数规模，已在 Hugging Face 平台开放下载，适用于强化学习（RL）研究、推理效率优化以及任务定制化探索。

多规模模型，适配不同研究需求

为满足不同计算资源下的研究需求，OpenReasoning-Nemotron 提供了四种模型：

1.5B
7B
14B
32B

这些模型基于 Qwen 2.5 架构构建，虽然 DeepSeek R1 0528 671B 仅发布了 8B 精炼模型，但英伟达通过数据精炼方法，成功训练出多种规模的模型，以支持更广泛的研究场景。

高质量数据精炼是关键

OpenReasoning-Nemotron 的核心优势在于其训练数据。英伟达利用 DeepSeek R1 0528 模型生成了 500万个高质量推理样本，涵盖：

数学问题求解
科学推理
编程任务

这些数据为模型提供了强大的推理基础。尽管数据集尚未公开，但训练和评估所用的完整代码已在 NeMo-Skills 平台开放，便于研究者复现实验并进一步优化。

基准测试表现亮眼，树立新标准

OpenReasoning-Nemotron 模型在多个推理基准测试中表现出色，尤其在 数学与编程任务 上达到当前各规模模型中的最先进水平。

模型规模	基准表现
7B	达到同规模最优
14B	超越主流模型
32B	接近甚至超越 o3（高）水平

这一成果表明，仅通过高质量数据的监督微调（SFT），就能在推理任务中取得显著突破。

多代理协作能力加持

OpenReasoning-Nemotron 还支持一种“重型”推理模式：GenSelect。

该模式通过并行生成多个解题方案并从中选择最优解，显著提升模型的准确率与鲁棒性。训练中使用了 DeepSeek R1 0528 的完整推理轨迹，虽然仅针对数学问题进行训练，但却意外泛化到了编程任务。

在 GenSelect 模式下，32B 模型在多个基准测试中得分接近甚至超越 o3（高）水平。

为强化学习研究提供坚实基础

此次发布的模型仅通过 监督微调（SFT）训练，并未引入强化学习（RL）机制。这一设计有意为之，旨在展示仅靠数据精炼能达到的推理上限，并为后续 RL 研究提供高质量起点。

结合 AceReasoning-Nemotron 的研究经验，英伟达团队提出了一种课程式 RL 训练策略，先训练数学推理，再引入科学与编程任务，显著提升了模型训练的稳定性。

大语言模型 # OpenReasoning-Nemotron # 英伟达

文章版权归作者所有，未经允许请勿转载。

Nous Research 发布 Hermes 4：无内容限制，数学性能超越 ChatGPT 的开源 AI 新选择

大语言模型 # Hermes 4 # Nous Research

6个月前

04690

Ai2 发布 Olmo Hybrid：混合架构的“效率革命”，用一半数据训练出同等能力的 7B 模型

大语言模型 # Olmo Hybrid # 艾伦AI研究所

4天前

0150

英伟达向沙特国家支持的AI数据中心提供18,000个AI GPU，此举源于取消的出口规则

早报 # AI # Humain # 沙特

10个月前

01710

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

大语言模型 # Anthropic # Claude 3.7 Sonnet # Claude Code

1年前

03520

暂无评论

暂无评论...

英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

多规模模型，适配不同研究需求

高质量数据精炼是关键

基准测试表现亮眼，树立新标准

多代理协作能力加持

为强化学习研究提供坚实基础

字节跳动开源 Seed-X：70亿参数的多语言翻译模型，性能媲美 GPT-4 和 Gemini

告别旧版，迎接进化！阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

相关文章

Nous Research 发布 Hermes 4：无内容限制，数学性能超越 ChatGPT 的开源 AI 新选择

Ai2 发布 Olmo Hybrid：混合架构的“效率革命”，用一半数据训练出同等能力的 7B 模型

英伟达向沙特国家支持的AI数据中心提供18,000个AI GPU，此举源于取消的出口规则

Anthropic推出首款“混合推理模型”Claude 3.7 Sonnet和代理编码工具Claude Code

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

Claude Code 新增“自动记忆”：告别重复配置，AI 越用越懂你的项目偏好

仅需两条命令：手把手教你在 Docker 沙箱中部署 OpenClaw 并连接本地大模型

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

新OpenClaw startups

新AutoClaw

英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

多规模模型，适配不同研究需求

高质量数据精炼是关键

基准测试表现亮眼，树立新标准

多代理协作能力加持

为强化学习研究提供坚实基础

字节跳动开源 Seed-X：70亿参数的多语言翻译模型，性能媲美 GPT-4 和 Gemini

告别旧版，迎接进化！阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

新OpenClaw startups

新AutoClaw