英伟达发布数学推理模型 OpenMath-Nemotron 系列，基于Qwen2.5-32B训练

大语言模型9个月前发布小马良

205 0

长期以来，数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色，但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时，它们往往显得力不从心。为了弥合这一差距，英伟达推出了 OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle，这两款先进的数学推理 AI 模型不仅在 AIMO-2 数学竞赛中荣获第一名，还在多个基准测试中创下新的记录。

OpenMath-Nemotron-32B：https://huggingface.co/nvidia/OpenMath-Nemotron-32B
OpenMath-Nemotron-14B-Kaggle：https://huggingface.co/nvidia/OpenMath-Nemotron-14B-Kaggle

OpenMath-Nemotron 系列的核心亮点

1. OpenMath-Nemotron-32B：旗舰级数学推理模型

参数规模：328 亿个参数
硬件优化：利用 BF16 张量运算实现高效的硬件利用率
训练数据：基于 Qwen2.5-32B，并在 OpenMathReasoning 数据集（一个包含数学奥林匹克竞赛和标准化考试难题的精选语料库）上进行了大规模微调。

性能表现：

在美国数学邀请赛 (AIME) 2024 和 2025 中，实现了 78.4% 的 pass@1 准确率，并通过多数投票机制达到了 93.3% 的准确率。
在哈佛-麻省理工学院数学竞赛 (HMMT) 2024-25 中表现出色，在多项基准测试中均取得了最先进的结果。

三种推理模式：

思维链 (CoT)：通过生成中间推理步骤来提高透明性，在 AIME24 上实现了 76.5% 的 pass@1 准确率。
工具集成推理 (TIR)：结合外部工具进行验证和增强，在 AIME24 上达到 78.4% 的 pass@1 准确率。
生成式解选择 (GenSelect)：通过生成多个候选解决方案并选择最一致的答案，准确率进一步提升至 93.3%。

这些配置使 OpenMath-Nemotron-32B 能够灵活适应不同的应用场景，既满足研究环境中对解释性的需求，也适合生产环境中对速度和可靠性的要求。

2. OpenMath-Nemotron-14B-Kaggle：高效且高精度的轻量级模型

参数规模：148 亿个参数
训练数据：针对 AIMO-2 Kaggle 竞赛的特定子集进行了针对性微调，以优化其在竞赛中的表现。

性能表现：

在 AIME24 基准测试中，实现了 73.7% 的 pass@1 准确率，并通过 GenSelect 协议提高到 86.7%。
在 AIME25 和 HMMT-24-25 基准测试中，分别达到了 57.9% 和 50.5% 的 pass@1 准确率，并在多数投票机制下进一步提升至 73.3% 和 64.8%。

尽管参数规模较小，但 OpenMath-Nemotron-14B-Kaggle 在资源受限或推理延迟是关键因素的场景中表现出色，成为 AIMO-2 Kaggle 竞赛中排名第一的解决方案。

开源管道与框架支持

OpenMath-Nemotron 系列附带一个完整的开源管道，允许研究人员和开发者重现数据生成、训练过程和评估协议。这些工作流程已集成到英伟达的 NeMo-Skills 框架 中，为以下推理模式提供参考实现：

思维链 (CoT)
工具集成推理 (TIR)
生成式解选择 (GenSelect)

此外，英伟达还提供了示例代码片段，帮助开发者快速构建应用程序原型，例如查询模型以获取逐步解决方案或简化的最终答案。

硬件优化与部署支持

两款模型均经过优化，可在英伟达 GPU 架构（从 Ampere 到 Hopper 微架构）上高效运行，利用以下技术实现低延迟和高吞吐量：

BF16 张量运算：在数值精度和内存占用之间取得平衡，确保大规模模型能够在 GPU 内存限制内运行。
CUDA 库和 TensorRT：通过高度优化的库加速推理过程。
Triton Inference Server：支持在 Web 服务或批处理管道中实现低延迟、高吞吐量的部署。

潜在应用与未来方向

OpenMath-Nemotron 系列的推出为多个领域带来了新的可能性，包括：

AI 驱动的辅导系统：为学生提供个性化的数学学习支持。
学术竞赛准备工具：帮助参赛者练习和提高数学解题能力。
科学计算工作流程：将形式化或符号推理集成到复杂的科学研究中。

未来的研究可能会扩展到更高级的大学水平数学、支持多模态输入（如手写方程式）以及与符号计算引擎的深度集成，以验证和增强生成的解决方案。

大语言模型 # OpenMath-Nemotron # Qwen2.5-32B # 数学推理模型 # 英伟达

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

LIMI ：少即是多，78个样本如何训练出高效AI智能体

LIMI ：少即是多，78个样本如何训练出高效AI智能体

大语言模型 # LIMI # 智能体

4个月前

01660

FunctionGemma：谷歌发布 2.7 亿参数边缘函数调用模型，让设备“听懂即执行”

FunctionGemma：谷歌发布 2.7 亿参数边缘函数调用模型，让设备“听懂即执行”

大语言模型 # FunctionGemma # 谷歌 # 边缘函数调用模型

3周前

0230

阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507：复杂任务表现大幅提升

阿里推出“会思考”的30B模型Qwen3-30B-A3B-Thinking-2507：复杂任务表现大幅提升

大语言模型 # Qwen3-30B-A3B-Thinking-2507 # 推理模型

5个月前

03700

IBM 发布 Granite 4.0 Nano：350M-1.5B 参数边缘模型，混合SSM架构+Apache 2.0开源，性能超越同尺寸竞品

IBM 发布 Granite 4.0 Nano：350M-1.5B 参数边缘模型，混合SSM架构+Apache 2.0开源，性能超越同尺寸竞品

大语言模型 # Granite 4.0 Nano # IBM

2个月前

0150

暂无评论

none

暂无评论...