今天,OpenAI发布 OpenAI o3 和 o4-mini,这是OpenAI o 系列模型的最新版本,经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型,显著提升了 ChatGPT 的能力,适用于从好奇用户到高级研究人员的各类人群。
首次,我们的推理模型能够以代理方式使用并组合 ChatGPT 中的所有工具,包括网页搜索、分析上传的文件和其他数据、通过 Python 进行深入推理、处理视觉输入,甚至生成图像。关键在于,这些模型经过训练,能够推理何时以及如何使用工具,以适当的输出格式生成详细且深思熟虑的答案,通常在不到一分钟内解决更复杂的问题。这使其能更有效地处理多方面问题,迈向更具代理性的 ChatGPT,能够代表用户独立执行任务。最先进的推理能力与全面工具访问相结合,显著提升了学术基准测试和现实世界任务的表现,树立了智能与实用性的新标杆。

有何变化
OpenAI o3 是我们最强大的推理模型,在编码、数学、科学、视觉感知等领域拓展了前沿。它在 Codeforces、SWE-bench(无需构建特定模型脚手架)和 MMMU 等基准测试中创下新的最优表现(SOTA)。它非常适合需要多方面分析且答案可能不显而易见的复杂查询,尤其在分析图像、图表和图形等视觉任务中表现突出。在外部专家的评估中,o3 在复杂现实世界任务中的重大错误率比 OpenAI o1 低 20%,特别是在编程、商业/咨询和创意构思领域表现出色。早期测试者强调其作为思考伙伴的分析严谨性,以及在生物学、数学和工程背景下生成并批判性评估新假设的能力。
OpenAI o4-mini 是一款为快速、成本效益高的推理优化的小型模型,其性能在规模和成本上表现出色,特别是在数学、编码和视觉任务中。它在 2024 和 2025 年 AIME 竞赛中创下新的最优表现。在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域也超越了其前身 o3-mini。由于其高效性,o4-mini 的使用限额远高于 o3,成为处理需要推理的高容量、高吞吐量问题的强大选择。
外部专家评估认为,这两款模型在指令遵循和提供更实用、可验证的回答方面均优于前代,这得益于更高的智能和网络资源的引入。与之前的推理模型相比,这两款模型的对话更加自然流畅,尤其是在引用记忆和过往对话时,回答更具个性化和相关性。




所有模型都在高“推理难度”设置下进行评估,类似于ChatGPT中的“o4-mini-high”变体。
持续扩展强化学习
在 OpenAI o3 的开发过程中,我们观察到大规模强化学习表现出与 GPT 系列预训练相同的“更多计算 = 更好性能”趋势。通过重新探索扩展路径——这次是在强化学习中——我们在训练计算和推理时长上增加了一个数量级,仍观察到明显的性能提升,验证了模型在被允许更多思考时性能持续改善。在与 OpenAI o1 相同的延迟和成本下,o3 在 ChatGPT 中提供更高性能——我们还验证了若允许更长时间思考,其性能将继续提升。
我们还通过强化学习训练两款模型使用工具——不仅教它们如何使用工具,还让它们推理何时使用。它们根据预期结果部署工具的能力,使其在开放式场景中更强大,尤其是在涉及视觉推理和多步骤工作流的场景中。这一改进体现在学术基准测试和早期测试者报告的现实世界任务中。
以图像思考

首次,这些模型能将图像直接融入其思维链。它们不仅仅是看到图像——而是利用图像进行思考。这开启了一类融合视觉与文本推理的新问题解决能力,体现在其在多模态基准测试中的最优表现。
用户可以上传白板照片、教科书图表或手绘草图,模型能够解读——即使图像模糊、反转或低质量。结合工具使用,模型可在推理过程中动态操作图像——旋转、缩放或转换图像。
这些模型在视觉感知任务中提供一流的准确性,能够解决以往无法触及的问题。查看视觉推理研究博客以了解更多。
迈向代理式工具使用
OpenAI o3 和 o4-mini 在 ChatGPT 中拥有全部工具访问权限,并通过 API 的函数调用支持用户自定义工具。这些模型经过训练,能推理如何解决问题,选择何时以及如何使用工具,快速生成详细且深思熟虑的答案,格式正确,通常在不到一分钟内完成。
例如,用户可能询问:“加州夏季能源使用量与去年相比如何?”模型可搜索公共事业数据,编写 Python 代码构建预测,生成图表或图像,并解释预测背后的关键因素,串联多次工具调用。推理能力使模型能根据遇到的新信息灵活反应和调整。例如,它们可借助搜索提供商多次搜索网络,查看结果,并在需要时尝试新的搜索。
这种灵活的战略方法使模型能处理需要访问模型内置知识之外的最新信息、扩展推理、综合分析和跨模态输出生成的任务。



OpenAI o3 和 o4-mini 是我们发布过的最智能模型,且通常比其前代 OpenAI o1 和 o3-mini 更高效。例如,在 2025 AIME 数学竞赛中,o3 的成本-性能边界严格优于 o1,o4-mini 的边界同样严格优于 o3-mini。一般而言,我们预计在大多数现实世界使用场景中,o3 和 o4-mini 相较于 o1 和 o3-mini 将更智能且成本更低。
安全性
每次模型能力的提升都需要相应的安全改进。对于 OpenAI o3 和 o4-mini,我们完全重建了安全训练数据,新增了生物威胁(生物风险)、恶意软件生成和越狱等领域的拒绝提示。这些更新数据使 o3 和 o4-mini 在我们的内部拒绝基准测试(如指令层级、越狱)中表现出色。除了模型拒绝的强大性能外,我们还开发了系统级缓解措施,以标记前沿风险领域的危险提示。与我们早期的图像生成工作类似,我们训练了一个基于人类编写且可解释的安全规范的推理大语言模型监控器。在生物风险方面,该监控器在我们的人工红队测试活动中成功标记了约 99% 的对话。
我们以迄今最严格的安全计划对两款模型进行了压力测试。根据更新的准备框架,我们在框架涵盖的三个能力领域——生物与化学、网络安全和 AI 自我改进——对 o3 和 o4-mini 进行了评估。根据评估结果,我们确定 o3 和 o4-mini 在所有三个类别中均低于框架的“高”门槛。我们在附带的系统卡中发布了这些评估的详细结果。
Codex CLI:终端中的前沿推理
我们还分享了一项新实验:Codex CLI,一个可在终端运行的轻量级编码代理。它直接在您的计算机上运行,旨在最大化 o3 和 o4-mini 等模型的推理能力,并即将支持 GPT-4.1 等其他 API 模型。
您可通过命令行获得多模态推理的益处,将截图或低保真草图传递给模型,并结合本地代码访问。我们将其视为连接我们的模型与用户及其计算机的最简接口。Codex CLI 现已在 github.com/openai/codex 完全开源。
同时,我们推出了一项 100 万美元的计划,支持使用 Codex CLI 和 OpenAI 模型的项目。我们将评估并接受以 2.5 万美元 API 信用额度为增量的资助申请。提案可在此提交。
访问权限
ChatGPT Plus、Pro 和 Team 用户即日起可在模型选择器中看到 o3、o4-mini 和 o4-mini-high,替换 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户将在一周内获得访问权限。免费用户可通过在提交查询前选择“思考”来试用 o4-mini。所有计划的速率限制与之前模型保持不变。
我们预计将在几周内发布 OpenAI o3-pro,具备完整工具支持。目前,Pro 用户仍可访问 o1-pro。
o3 和 o4-mini 即日起通过 Chat Completions API 和 Responses API 向开发者提供(部分开发者需验证其组织以访问这些模型)。Responses API 支持推理摘要、保留函数调用周围的推理标记以提升性能,并将很快支持模型推理中的内置工具,如网页搜索、文件搜索和代码解释器。开始使用请查看我们的文档,并关注更多更新。
未来展望
今天的更新反映了我们模型的发展方向:我们正在将 o 系列的专门推理能力与 GPT 系列的自然对话能力和工具使用相结合。通过统一这些优势,我们的未来模型将支持无缝、自然的对话,同时具备主动工具使用和高级问题解决能力。(来源)















