OpenAI在今天发布了其最新模型GPT-5,这是它们迄今为止最智能、快速和实用的模型,内置思考能力,将专家级智能赋予每个人。(官方博文介绍)
OpenAI隆重推出 GPT-5,这是penAI迄今最好的 AI 系统。GPT-5 在智能方面相较于之前的所有模型有了显著飞跃,在编码、数学、写作、健康、视觉感知等领域展现了最先进的性能。它是一个统一的系统,能够判断何时快速响应,何时需要更深入思考以提供专家级答案。GPT-5 对所有用户开放,Plus 订阅者可获得更多使用量,Pro 订阅者可访问 GPT-5 Pro 版本,该版本具有扩展的推理能力,提供更全面、更准确的回答。
一个统一的系统
GPT-5 是一个统一的系统,包含:
- 智能高效模型,用于回答大多数问题;
- 深度推理模型(GPT-5 Thinking),用于解决更复杂的问题;
- 实时路由器,根据对话类型、复杂性、工具需求以及用户的明确意图(例如,提示中包含“认真思考”)快速决定使用哪个模型。路由器通过实时信号持续训练,包括用户切换模型的情况、回复偏好率以及正确性评估,随着时间不断改进。一旦达到使用限制,每个模型的迷你版本将处理剩余查询。未来,OpenAI计划将这些能力整合到一个单一模型中。
更智能、更广泛实用的模型
GPT-5 不仅在基准测试中超越了之前的模型,回答问题更快,更重要的是,它对现实世界的查询更加实用。OpenAI在减少幻觉、改进指令遵循和减少谄媚行为方面取得了显著进展,同时在 ChatGPT 最常用的三个领域——写作、编码和健康——提升了 GPT-5 的性能。
编码
GPT-5 是OpenAI迄今最强大的编码模型。它在复杂前端生成和调试大型代码库方面表现出特别的改进。它通常能通过一个提示创建美观且响应式的网站、应用和游戏,展现出对美学敏锐的直觉和品味,将创意转化为现实。早期测试者还注意到其在设计选择上的进步,例如对间距、排版和留白的更好理解。有关 GPT-5 为开发者解锁的全部细节,请参见此处。
以下是 GPT-5 通过单一提示创建的一些示例:

创意表达与写作
GPT-5 是OpenAI迄今最强大的写作助手,能够帮助你将粗糙的想法转化为引人入胜、富有文学深度和节奏感的写作。它能更可靠地处理涉及结构模糊性的写作,例如维持无韵五步抑扬格或自然流动的自由诗,兼顾形式与表达的清晰度。这些改进的写作能力意味着 ChatGPT 在帮助你完成日常任务(如起草和编辑报告、邮件、备忘录等)方面表现更佳。以下表格比较了 GPT-5 和 GPT-4o 的写作风格。
健康
GPT-5 是OpenAI迄今在健康相关问题上表现最好的模型,赋予用户了解和倡导自身健康的能力。该模型在 HealthBench(OpenAI今年早些时候发布的基于现实场景和医生定义标准的评估)上的得分显著高于之前的任何模型。相比之前模型,它更像一个主动的思考伙伴,会主动标记潜在问题并提出问题,以提供更有帮助的回答。模型现在还能提供更精确、可靠的回答,适应用户的背景、知识水平和地理位置,从而在多种场景下提供更安全、更实用的回答。重要的是,ChatGPT 不能替代医疗专业人士——将其视为帮助你理解结果、在与医生交流时提出正确问题并权衡选择的伙伴。
以下是一些示例,展示 GPT-5 在各领域相较于之前模型的改进——更丰富、更详细、更实用:

评估
GPT-5 在学术和人类评估的基准测试中全面更智能,特别是在数学、编码、视觉感知和健康领域。它在以下方面树立了新的业界标杆:数学(在 2025 年 AIME 上达到 94.6%,无需工具)、现实世界编码(SWE-bench Verified 上 74.9%,Aider Polyglot 上 88%)、多模态理解(MMMU 上 84.2%)和健康(HealthBench Hard 上 46.2%)——这些提升在日常使用中表现明显。凭借 GPT-5 Pro 的扩展推理能力,模型还在 GPQA 上创下新高,达到 88.4%(无需工具)。





指令遵循与代理工具使用
GPT-5 在测试指令遵循和代理工具使用的基准测试中显著提升,这些能力使其能可靠地执行多步骤请求、协调不同工具并适应上下文变化。实际上,这意味着它能更好地处理复杂、动态的任务;GPT-5 能更忠实地遵循你的指令,并利用可用工具完成更多端到端的工作。


多模态
该模型在涉及视觉、视频、空间和科学推理的多模态基准测试中表现出色。更强的多模态性能意味着 ChatGPT 能更准确地推理图像和其他非文本输入——无论是解读图表、总结演示照片还是回答关于图表的问题。


经济重要任务
GPT-5 还是OpenAI内部基准测试中表现最好的模型,该基准测试衡量模型在复杂、具有经济价值的知识工作中的表现。使用推理时,GPT-5 在大约一半的案例中与专家相当或更优,同时在涵盖法律、物流、销售和工程等超过 40 个职业的任务中超越 o3 和 ChatGPT Agent。

更快、更高效的思考
GPT-5 用更少的思考时间创造更多价值。在OpenAI的评估中,GPT-5(带思考)在视觉推理、代理编码和研究生级科学问题解决等能力上,相较于 OpenAI o3 使用 50-80% 更少的输出标记,表现更优。



GPT-5 在微软 Azure AI 超级计算机上进行训练。
构建更稳健、可靠且实用的模型
更准确的现实世界查询回答
GPT-5 的幻觉发生率显著低于OpenAI之前的模型。在对代表 ChatGPT 生产流量的匿名提示启用网页搜索的情况下,GPT-5 的回答包含事实错误的概率比 GPT-4o 低约 45%,而使用思考时,GPT-5 的回答包含事实错误的概率比 OpenAI o3 低约 80%。
OpenAI特别投入于提升模型在复杂、开放性问题上的推理可靠性。因此,OpenAI添加了新的评估来压力测试开放性事实的准确性。OpenAI测量了 GPT-5 在两个公开事实性基准测试(LongFact(概念和对象)和 FActScore)上进行思考时的幻觉发生率。在所有这些基准测试中,“GPT-5 Thinking” 的幻觉发生率显著降低——比 o3 少约六倍,标志着在生成始终准确的长篇内容方面取得了明显进步。有关OpenAI在这些基准测试上的实施和评分细节,请参见系统卡。

更诚实的回答
除了改进事实性,GPT-5(带思考)在描述其行为和能力时更加诚实——特别是对于无法完成、未明确指定或缺少关键工具的任务。在训练中,为了获得高奖励,推理模型可能会学会谎称成功完成任务或对不确定的回答过于自信。例如,为了测试这一点,OpenAI从多模态基准测试 CharXiv 的提示中删除了所有图像,发现 OpenAI o3 仍对不存在的图像给出自信回答的比例高达 86.7%,而 GPT-5 仅为 9%。
在推理时,GPT-5 能更准确地识别任务无法完成的情况,并清楚地传达其限制。OpenAI在涉及不可能的编码任务和缺失多模态资产的场景下评估了欺骗率,发现 GPT-5(带思考)在所有场景下的欺骗性均低于 o3。在代表真实生产 ChatGPT 流量的大量对话中,OpenAI将欺骗率从 o3 的 4.8% 降低到 GPT-5 推理回答的 2.1%。虽然这为用户带来了显著改进,但仍有更多工作要做,OpenAI将继续研究以提高模型的事实性和诚实性。更多细节请参见系统卡。


更安全、更实用的回答
GPT-5 在安全性方面推进了前沿。过去,ChatGPT 主要依赖基于拒绝的安全训练:根据用户的提示,模型要么遵从要么拒绝。虽然这种训练对明确恶意的提示效果良好,但在用户意图不明确或信息可能被用于善意或恶意的情况下表现不佳。拒绝训练在双重用途领域(如病毒学)尤其不灵活,在这些领域,善意请求可以在高层次上安全完成,但如果详细完成可能被恶意利用。
对于 GPT-5,OpenAI引入了一种新的安全训练形式——安全完成,它教导模型在可能的情况下提供最有帮助的回答,同时保持在安全边界内。有时,这可能意味着部分回答用户的问题或仅在高层次上回答。如果模型需要拒绝,GPT-5 经过训练会透明地说明拒绝原因,并提供安全的替代方案。在受控实验和OpenAI的生产模型中,OpenAI发现这种方法更加细致,能够更好地处理双重用途问题,对模糊意图更具鲁棒性,并减少不必要的过度拒绝。有关我们新安全训练方法的更多信息,以及方法、指标和结果的完整细节,请参见OpenAI的安全完成论文。
减少谄媚和优化风格
总体而言,GPT-5 更少盲目附和,使用更少的无必要表情符号,在后续回复中更加细腻和深思熟虑,相比 GPT-4o 更少“像与 AI 对话”的感觉,更像与一个拥有博士级智能的helpful朋友聊天。
今年早些时候,OpenAI对 GPT-4o 进行了更新,无意中使模型过于谄媚,表现为过度奉承或附和。OpenAI迅速回滚了该更改,并随后致力于理解和减少这种行为,方法包括:
- 开发新的评估方法来测量谄媚水平;
- 改进的训练,使模型减少谄媚行为——例如,添加通常会导致过度附和的示例,然后教导模型不要这样做。
在针对引发谄媚回复的提示进行的特定谄媚评估中,GPT-5 显著减少了谄媚回复(从 14.5% 降至不到 6%)。有时,减少谄媚可能会降低用户满意度,但OpenAI所做的改进将谄媚行为减少了一半以上,同时还带来了其他可衡量的提升,因此用户仍能获得高质量、建设性的对话——这与OpenAI帮助用户更好地使用 ChatGPT的目标一致。
更多定制 ChatGPT 的方式
GPT-5 在指令遵循方面显著改进,OpenAI也看到其在遵循自定义指令方面的相应提升。
OpenAI还为所有 ChatGPT 用户推出了四种新的预设人格研究预览,这得益于在可控性方面的改进。这些人格最初适用于文本聊天,后续将支持语音模式,让你无需编写自定义提示即可设置 ChatGPT 的交互方式——无论是简洁专业、深思支持,还是带点讽刺。初始四种选项——Cynic、Robot、Listener 和 Nerd——可随时在设置中选择和调整,设计上与你的沟通风格相匹配。
所有这些新人格均达到或超过OpenAI在减少谄媚方面的内部评估标准。
OpenAI期待根据早期反馈进行学习和迭代。
针对生物风险的全面防护
OpenAI决定将“GPT-5 Thinking”模型视为生物和化学领域的高能力模型,并实施了强有力的防护措施,以充分降低相关风险。OpenAI根据准备框架对模型进行了严格的安全评估,与 CAISI 和 UK AISI 等伙伴完成了 5000 小时的红队测试。
与 ChatGPT Agent 的方法类似,虽然OpenAI没有确凿证据表明该模型能显著帮助新手造成严重的生物危害——OpenAI的高能力定义阈值——OpenAI采取了预防性方法,现在激活了所需的安全防护措施,以提高对未来此类能力的准备。因此,“GPT-5 Thinking”拥有针对生物学的多层防御安全体系:全面的威胁建模、通过OpenAI新的安全完成范式训练模型不输出有害内容、始终运行的分类器和推理监控器,以及清晰的执行管道。
有关 GPT-5 稳健安全方法的更多信息,请参见OpenAI的系统卡。
GPT-5 Pro
对于最具挑战性、复杂的任务,OpenAI还发布了 GPT-5 Pro,取代 OpenAI o3-Pro,这是 GPT-5 的一个变体,通过扩展但高效的并行测试时计算,提供最高质量和最全面的回答。GPT-5 Pro 在 GPT-5 家族中在多个具有挑战性的智能基准测试中实现了最高性能,包括在包含极难科学问题的 GPQA 上创下业界最佳表现。
在对超过 1000 个具有经济价值的现实世界推理提示的评估中,外部专家在 67.8% 的情况下更偏好 GPT-5 Pro 而非“GPT-5 Thinking”。GPT-5 Pro 的重大错误率降低了 22%,在健康、科学、数学和编码领域表现卓越。专家认为其回答相关、有用且全面。
如何使用 GPT-5
GPT-5 是 ChatGPT 的新默认模型,取代了 GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1 和 GPT-4.5,适用于登录用户。只需打开 ChatGPT 并输入你的问题;GPT-5 会处理其余部分,在回复能从中受益时自动应用推理。付费用户仍可从模型选择器中选择“GPT-5 Thinking”,或在提示中输入类似“认真思考”以确保生成回复时使用推理。
可用性和访问
GPT-5 今天开始向所有 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 用户将在未来一周内获得访问权限。Pro、Plus 和 Team 用户还可以通过登录 ChatGPT 在 Codex CLI 中开始使用 GPT-5 进行编码。
与 GPT-4o 一样,免费和付费用户访问 GPT-5 的区别在于使用量。Pro 订阅者享有 GPT-5 和 GPT-5 Pro 的无限制访问。Plus 用户可将其作为日常问题默认模型,拥有比免费用户高得多的使用量。Team、Enterprise 和 Edu 客户也可将其作为日常工作的默认模型,拥有宽松的限制,便于整个组织依赖 GPT-5。对于 ChatGPT 免费层用户,完整推理能力可能需要几天时间完全推出。一旦免费用户达到 GPT-5 使用限制,他们将过渡到 GPT-5 mini,这是一个更小、更快但能力很强的模型。















