英伟达 RTX显卡实现 OpenAI 最新开源模型 gpt-oss最快推理速度

342 0

英伟达（NVIDIA）宣布与 OpenAI 深度合作，将后者最新发布的开放权重模型 gpt-oss-20b 和 gpt-oss-120b 带入消费级与专业级设备端，依托 GeForce RTX 与 RTX PRO 显卡 实现前所未有的本地推理性能。

这是 OpenAI 首次将其前沿模型通过优化支持在个人设备上高效运行，标志着 AI 能力正从“云端专属”加速向“本地普惠”演进。

“OpenAI 展示了在 NVIDIA AI 上能构建什么——现在，他们正推动开源软件的创新。”
——英伟达创始人兼 CEO 黄仁勋（Jensen Huang）

性能突破：RTX 5090 实现 250 token/s

在英伟达优化下，gpt-oss 系列模型在 RTX 硬件上展现出惊人效率：

gpt-oss-20b：在 RTX 5090 上实现高达 250 令牌/秒 的推理速度，适合低延迟、高响应的本地 AI 应用；
gpt-oss-120b：由 RTX PRO 系列专业显卡 加速支持，适用于科研、工程与企业级工作站场景。

这两款模型均在 NVIDIA H100 GPU 上完成训练，并首次在 RTX 平台支持 MXFP4 量化格式——一种在不牺牲精度的前提下显著降低内存占用、提升计算效率的技术。

此外，模型支持高达 131,072 token 的上下文长度，是当前本地推理模型中上下文最长的之一，适用于长文档分析、代码库理解等复杂任务。

技术架构：为高效推理而生

gpt-oss 系列基于以下关键技术构建：

混合专家（MoE）架构：仅激活部分参数，大幅提升推理效率；
链式推理（Chain-of-Thought, CoT）：支持多步逻辑推导；
工具调用能力：可集成代码执行、网页搜索等外部工具；
灵活部署：支持云、边缘、本地多种环境。

这些特性使其不仅适合生成任务，更能驱动 AI 代理完成复杂工作流。

如何在 RTX 设备上运行 gpt-oss？

英伟达联合多个生态伙伴，为开发者提供多种便捷接入方式：

✅ Ollama 应用（推荐入门）

提供图形化界面，一键下载并运行 gpt-oss:20b 或 gpt-oss:120b；
原生支持 MXFP4 格式，针对 RTX 显卡全面优化；
支持 Windows、macOS 和 Linux。

ollama run gpt-oss:20b

✅ Llama.cpp（高性能定制）

英伟达已向开源社区贡献多项 CUDA 优化；
使用 CUDA Graphs 减少内核启动开销，提升吞吐；
适合需要精细控制内存与性能的开发者。

GitHub 仓库：https://github.com/ggml-org/llama.cpp

✅ Microsoft AI Foundry（Windows 开发者）

Windows 用户可通过 AI Foundry Local（公开预览版）直接调用模型；
命令行即可启动：

foundry model run gpt-oss-20b

该方案结合 ONNX Runtime 与 DirectML，充分发挥 RTX 显卡性能。

生态协同：英伟达+ OpenAI + Ollama 的“黄金三角”

此次合作不仅是硬件与模型的对接，更是全栈生态的协同升级：

OpenAI 提供最先进的开放模型（Apache 2.0 许可）
Ollama 提供极简本地运行环境
NVIDIA 提供硬件级性能优化与 MXFP4 支持

这三者的结合，让普通开发者也能在笔记本上运行接近 o4-mini 能力的模型，真正实现“高端模型平民化”。

早报 # gpt-oss # OpenAI # 英伟达

文章版权归作者所有，未经允许请勿转载。

Google I/O 2025 发布会亮点：Project Astra 正式落地搜索、Gemini 和开发者生态

早报 # Gemini # Project Astra

10个月前

02870

Cursor 2.0 发布：推出自研模型 Composer 与多智能体协作界面

早报 # Composer # Cursor 2.0

4个月前

0280

Meta大语言模型Llama 4 将于本月发布，但数学处理及推理能力尚待改进

早报 # Llama 4 # Meta

11个月前

02280

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

大语言模型 # Nemotron-Nano-9B-V2 # 英伟达

7个月前

02490

暂无评论

暂无评论...

英伟达 RTX显卡实现 OpenAI 最新开源模型 gpt-oss最快推理速度

性能突破：RTX 5090 实现 250 token/s

技术架构：为高效推理而生

如何在 RTX 设备上运行 gpt-oss？

✅ Ollama 应用（推荐入门）

✅ Llama.cpp（高性能定制）

✅ Microsoft AI Foundry（Windows 开发者）

生态协同：英伟达+ OpenAI + Ollama 的“黄金三角”

在 GPT-5发布前夕！Anthropic发布Claude Opus 4.1，依旧主打编程

OpenAI 模型首次登陆 AWS，挑战微软云主导地位

相关文章

Google I/O 2025 发布会亮点：Project Astra 正式落地搜索、Gemini 和开发者生态

Cursor 2.0 发布：推出自研模型 Composer 与多智能体协作界面

Meta大语言模型Llama 4 将于本月发布，但数学处理及推理能力尚待改进

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

零成本尝鲜 OpenClaw：一部安卓手机就能跑起本地 AI 助手

谷歌搜索重磅升级：AI 画布（Canvas）全面开放，搜索框变身“项目工作台”

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

英伟达 RTX显卡实现 OpenAI 最新开源模型 gpt-oss最快推理速度

性能突破：RTX 5090 实现 250 token/s

技术架构：为高效推理而生

如何在 RTX 设备上运行 gpt-oss？

✅ Ollama 应用（推荐入门）

✅ Llama.cpp（高性能定制）

✅ Microsoft AI Foundry（Windows 开发者）

生态协同：英伟达+ OpenAI + Ollama 的“黄金三角”

在 GPT-5发布前夕！Anthropic发布Claude Opus 4.1，依旧主打编程

OpenAI 模型首次登陆 AWS，挑战微软云主导地位

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw