英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

大语言模型3周前发布小马良

40 0

随着企业 AI 应用从简单的聊天机器人向复杂的多智能体系统（Multi-Agent Systems）演进，两大瓶颈日益凸显：上下文爆炸导致成本激增与目标漂移，以及每一步都需大模型推理带来的高昂"思考税"。

今日，英伟达正式推出 NVIDIA Nemotron 3 Super，一款专为解决上述难题而生的开放权重模型。凭借创新的混合架构与高达 100 万词元 的上下文窗口，该模型在保持顶尖准确性的同时，将智能体任务的吞吐量提升了高达 5 倍，树立了新一代高效能大模型的标准。

官方介绍：https://research.nvidia.com/labs/nemotron/Nemotron-3-Super
模型：https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
Ollama：https://ollama.com/library/nemotron-3-super
OpenRouter：https://openrouter.ai/nvidia/nemotron-3-super-120b-a12b:free

英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

核心突破：解决智能体的两大痛点

1. 终结“上下文爆炸”

在多智能体协作中，历史对话、工具输出和中间推理步骤会迅速堆积，导致上下文长度呈指数级增长。

解决方案：Nemotron 3 Super 拥有 1,000,000（100 万）的原生上下文窗口。
价值：智能体可将完整的工作流状态保留在内存中，无需频繁截断或重新发送历史，彻底防止“目标漂移”，确保长任务执行的连贯性。

2. 减免“思考税”

传统方案中，每个子任务都调用大型模型会导致延迟高企、成本失控。

解决方案：采用 混合专家（MoE）架构，总参数量 1200 亿，但推理时仅激活 120 亿 活跃参数。
价值：以小型模型的算力成本，实现大型模型的推理能力，大幅降低单次调用的延迟与费用。

英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

架构创新：四大引擎驱动效率飞跃

Nemotron 3 Super 通过四项前沿技术创新，实现了比前代模型高达 5 倍的吞吐量和 2 倍的准确性提升：

技术特性	原理与优势
混合架构 (Mamba + Transformer)	Mamba 层提供 4 倍的内存与计算效率，擅长线性长序列处理；Transformer 层负责高阶逻辑推理。两者结合，兼顾速度与深度。
潜在混合专家 (Latent MoE)	行业首创。通过在低维空间激活专家，以单个专家的计算成本实现四个专家的协同效果，显著减少数据搬运开销，提升推理精度。
多词元预测 (MTP)	一次性预测多个未来词元，而非逐个生成。推理速度提升 3 倍，且无需额外的草稿模型，自我加速。
NVFP4 精度优化	专为 NVIDIA Blackwell 平台优化，支持 4 位浮点（NVFP4）推理。相比 Hopper 架构上的 FP8，速度提升 4 倍，且精度无损。

性能实测：速度与精度的双重领跑

在权威基准测试中，Nemotron 3 Super 展现了压倒性的优势，特别是在智能体任务和长文本处理领域：

智能体能力（Agentic Tasks）：
- SWE-Bench（软件工程）：得分 60.47，大幅超越 GPT-OSS-120B（41.9），展现强大的代码生成与调试能力。
- DeepResearch Bench：推动 NVIDIA AI-Q 研究智能体登顶排行榜，证明其在多步骤研究与复杂推理中的卓越表现。
长上下文能力：
- RULER 1M：在 100 万词元测试中得分 91.75，远超竞品 GPT-OSS-120B（22.30），在 256K/512K 长度下仍保持 95% 以上准确率。
推理速度：
- 在"8K 输入 +64K 输出”的高负载场景下，比 Qwen3.5-122B 快 7.5 倍，比 GPT-OSS-120B 快 2.2 倍。

英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

应用场景：从代码开发到金融分析

Nemotron 3 Super 的设计初衷是处理多智能体系统中的复杂子任务：

软件开发智能体：可一次性加载整个代码库至上下文，实现端到端的代码生成、重构与 Debug，无需分块处理。
金融深度分析：轻松 ingest 数千页的财报与研报，在长对话中保持逻辑一致，无需重复推理背景信息。
自主安全编排：凭借高精度的工具调用能力，可靠地遍历庞大函数库，避免在网络安全等高风险场景中出现执行错误。

开放生态：权重、数据与配方全开源

英伟达此次采取了极为开放的策略，旨在加速社区创新：

开放权重：开发者可在 workstation、数据中心或云端自由部署与定制。
开放数据：发布超过 10 万亿词元 的合成训练数据集及训练后数据。
开放配方：公开 15 个强化学习环境与评估配方，研究人员可利用 NVIDIA NeMo 平台进行微调或构建衍生模型。
便捷部署：模型已打包为 NVIDIA NIM 微服务，支持从本地到云端的无缝部署。

Nemotron 3 Super 的发布，标志着大模型竞争进入了"效率为王"的新阶段。它不再单纯追求参数规模的堆砌，而是通过架构创新（Mamba+MoE+MTP）和量化技术（NVFP4），在智能体最关注的长上下文、低延迟、低成本三个维度上实现了全面突破。

对于正在构建下一代自主智能体应用的企业与开发者而言，Nemotron 3 Super 提供了一个既强大又经济的基础设施选择。随着 Blackwell 架构的普及，这款模型有望成为推动 AI 从“对话”走向“行动”的关键引擎。

大语言模型 # NVIDIA Nemotron 3 Super # 英伟达

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

大语言模型 # AM-Thinking-v1 # 推理模型

11个月前

05030

Qwen3.5 小模型系列重磅发布：0.8B 至 9B 全覆盖，原生多模态与强化学习赋能边缘智能

Qwen3.5 小模型系列重磅发布：0.8B 至 9B 全覆盖，原生多模态与强化学习赋能边缘智能

大语言模型 # Qwen3.5

4周前

0780

英伟达拟20–30亿美元收购AI21，核心目标是其200人AI团队

英伟达拟20–30亿美元收购AI21，核心目标是其200人AI团队

早报 # AI21 Labs # 英伟达

3个月前

0180

阿里正式发布 Qwen3 Embedding和Reranker 系列模型：专为文本表征与检索排序设计

阿里正式发布 Qwen3 Embedding和Reranker 系列模型：专为文本表征与检索排序设计

大语言模型 # Qwen3 Embedding # Qwen3 Reranker # 阿里

10个月前

01510

暂无评论

none

暂无评论...