英伟达发布数学推理模型 OpenMath-Nemotron 系列,基于Qwen2.5-32B训练

大语言模型2个月前发布 小马良
85 0

长期以来,数学推理一直是人工智能领域的一项重大挑战。尽管传统的语言模型在生成自然语言文本方面表现出色,但在解决需要深入领域知识和多步骤逻辑推导的复杂数学问题时,它们往往显得力不从心。为了弥合这一差距,英伟达推出了 OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle,这两款先进的数学推理 AI 模型不仅在 AIMO-2 数学竞赛中荣获第一名,还在多个基准测试中创下新的记录。

英伟达发布数学推理模型 OpenMath-Nemotron 系列,基于Qwen2.5-32B训练

OpenMath-Nemotron 系列的核心亮点

1. OpenMath-Nemotron-32B:旗舰级数学推理模型

  • 参数规模:328 亿个参数
  • 硬件优化:利用 BF16 张量运算实现高效的硬件利用率
  • 训练数据:基于 Qwen2.5-32B,并在 OpenMathReasoning 数据集(一个包含数学奥林匹克竞赛和标准化考试难题的精选语料库)上进行了大规模微调。

性能表现

  • 在美国数学邀请赛 (AIME) 2024 和 2025 中,实现了 78.4% 的 pass@1 准确率,并通过多数投票机制达到了 93.3% 的准确率
  • 在哈佛-麻省理工学院数学竞赛 (HMMT) 2024-25 中表现出色,在多项基准测试中均取得了最先进的结果。

三种推理模式

  1. 思维链 (CoT):通过生成中间推理步骤来提高透明性,在 AIME24 上实现了 76.5% 的 pass@1 准确率
  2. 工具集成推理 (TIR):结合外部工具进行验证和增强,在 AIME24 上达到 78.4% 的 pass@1 准确率
  3. 生成式解选择 (GenSelect):通过生成多个候选解决方案并选择最一致的答案,准确率进一步提升至 93.3%

这些配置使 OpenMath-Nemotron-32B 能够灵活适应不同的应用场景,既满足研究环境中对解释性的需求,也适合生产环境中对速度和可靠性的要求。

2. OpenMath-Nemotron-14B-Kaggle:高效且高精度的轻量级模型

  • 参数规模:148 亿个参数
  • 训练数据:针对 AIMO-2 Kaggle 竞赛的特定子集进行了针对性微调,以优化其在竞赛中的表现。

性能表现

  • 在 AIME24 基准测试中,实现了 73.7% 的 pass@1 准确率,并通过 GenSelect 协议提高到 86.7%
  • 在 AIME25 和 HMMT-24-25 基准测试中,分别达到了 57.9% 和 50.5% 的 pass@1 准确率,并在多数投票机制下进一步提升至 73.3% 和 64.8%

尽管参数规模较小,但 OpenMath-Nemotron-14B-Kaggle 在资源受限或推理延迟是关键因素的场景中表现出色,成为 AIMO-2 Kaggle 竞赛中排名第一的解决方案。

开源管道与框架支持

OpenMath-Nemotron 系列附带一个完整的开源管道,允许研究人员和开发者重现数据生成、训练过程和评估协议。这些工作流程已集成到英伟达的 NeMo-Skills 框架 中,为以下推理模式提供参考实现:

  • 思维链 (CoT)
  • 工具集成推理 (TIR)
  • 生成式解选择 (GenSelect)

此外,英伟达还提供了示例代码片段,帮助开发者快速构建应用程序原型,例如查询模型以获取逐步解决方案或简化的最终答案。

硬件优化与部署支持

两款模型均经过优化,可在英伟达 GPU 架构(从 Ampere 到 Hopper 微架构)上高效运行,利用以下技术实现低延迟和高吞吐量:

  • BF16 张量运算:在数值精度和内存占用之间取得平衡,确保大规模模型能够在 GPU 内存限制内运行。
  • CUDA 库和 TensorRT:通过高度优化的库加速推理过程。
  • Triton Inference Server:支持在 Web 服务或批处理管道中实现低延迟、高吞吐量的部署。

潜在应用与未来方向

OpenMath-Nemotron 系列的推出为多个领域带来了新的可能性,包括:

  • AI 驱动的辅导系统:为学生提供个性化的数学学习支持。
  • 学术竞赛准备工具:帮助参赛者练习和提高数学解题能力。
  • 科学计算工作流程:将形式化或符号推理集成到复杂的科学研究中。

未来的研究可能会扩展到更高级的大学水平数学、支持多模态输入(如手写方程式)以及与符号计算引擎的深度集成,以验证和增强生成的解决方案。

© 版权声明

相关文章

暂无评论

none
暂无评论...