OpenAI 于北京时间2月28日正式推出其最新模型 GPT-4.5,这是迄今为止该公司发布的最大模型,使用的计算能力和数据量均超过以往任何模型。然而,尽管规模庞大,OpenAI 并未将 GPT-4.5 视为前沿模型,而是将其定位为探索 AI 发展方向的重要一步。
GPT-4.5 的推出与访问权限
从今天开始,GPT-4.5 已作为研究预览的一部分向每月支付 200 美元的 ChatGPT Pro 订阅用户开放。同时,OpenAI API 的付费开发者也可以立即使用该模型。对于其他 ChatGPT 用户,如 ChatGPT Plus 和 ChatGPT Team 的客户,预计将在下周获得访问权限。
GPT-4.5 的性能与局限性
性能提升
GPT-4.5 在多个基准测试中表现出色,尤其是在 SimpleQA(测试 AI 模型对简单事实性问题的回答)中,其准确性优于 GPT-4o 和其他推理模型。此外,GPT-4.5 在 SVG 图形生成 和 创意写作 等任务中也展现了更强的能力。

局限性
尽管 GPT-4.5 在某些任务上表现出色,但在一些复杂的学术基准测试中,如 AIME 和 GPQA,其性能不如 OpenAI 自己的推理模型(如 o3-mini)以及其他竞争对手(如 DeepSeek 的 R1 和 Anthropic 的 Claude 3.7 Sonnet)。此外,GPT-4.5 缺乏对 ChatGPT 逼真的双向语音模式的支持,这限制了其在某些场景中的应用。
扩展定律的挑战
OpenAI 表示,GPT-4.5“处于无监督学习可能实现的极限”,这表明传统的预训练“扩展定律”可能不再适用。OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 曾指出:“我们已经达到了数据峰值”,预训练的扩展方法可能即将结束。
推理模型的兴起
为了应对预训练的局限性,AI 行业已经开始转向推理模型,这些模型通过增加“思考”问题的时间和计算能力,显著提升了模型的性能。OpenAI 计划从今年晚些时候的 GPT-5 开始,将其 GPT 系列模型与推理模型结合,以实现更强大的功能。
以下是官方介绍全文:
我们最强大的 GPT 模型的研发预览版,面向全球 Pro 用户和开发者开放。
我们正在发布 GPT-4.5 的研发预览版——我们迄今为止最大、最好的聊天模型。GPT-4.5 是预训练和后训练规模化方面向前迈出的一步。通过规模化无监督学习,GPT-4.5 提高了识别模式、建立联系和生成创造性见解的能力,而无需推理。
早期测试表明,与 GPT-4.5 交互感觉更自然。其更广泛的知识库、更强的遵循用户意图的能力以及更高的“情商”使其在改进写作、编程和解决实际问题等任务中非常有用。我们还期望它能减少幻觉。
我们以研发预览版的形式分享 GPT-4.5,以更好地了解其优势和局限性。我们仍在探索它的功能,并渴望看到人们以我们可能没有预料到的方式使用它。
规模化无监督学习
我们通过扩展两种互补的范式来提升 AI 能力:无监督学习和推理。这代表了智能的两个轴。
-
规模化推理:教会模型在响应之前思考并生成思维链,使其能够处理复杂的 STEM 或逻辑问题。OpenAI o1 和 OpenAI o3-mini 等模型推动了这一范式的发展。 -
另一方面,无监督学习提高了世界模型的准确性和直觉。
GPT-4.5 是通过扩展计算和数据以及架构和优化创新来扩展无监督学习的一个例子。结果是一个拥有更广泛知识和对世界更深入理解的模型,从而减少了幻觉,并在广泛的主题中提高了可靠性。
扩展 GPT 范式

更深入的世界知识

SimpleQA 衡量 LLM(大型语言模型)在简单但具有挑战性的知识问题上的事实性
人为协作训练
随着我们扩展模型并解决更复杂的问题,教会它们更好地理解人类的需求和意图变得越来越重要。对于 GPT-4.5,我们开发了新的、可扩展的技术,可以使用从较小模型派生的数据来训练更大、更强大的模型。这些技术提高了 GPT-4.5 的可控性、对细微差别的理解和自然对话。

人为偏好衡量测试人员在查询中更喜欢 GPT-4.5 而不是 GPT-4o 的百分比
将对世界的深刻理解与改进的协作相结合,产生了一个模型,该模型在温暖而直观的对话中自然地整合了想法,这些对话更符合人类的协作。GPT-4.5 更好地理解了人类的意图,并以更大的细微差别和“情商”解释了微妙的线索或隐含的期望。GPT-4.5 还表现出更强的审美直觉和创造力。它擅长帮助写作和设计。
用例

即将到来的更强大的推理
GPT-4.5 在响应之前不会思考,这使其优势与 OpenAI o1 等推理模型特别不同。与 OpenAI o1 和 OpenAI o3-mini 相比,GPT-4.5 是一个更通用的、天生更智能的模型。我们相信推理将是未来模型的核心能力,并且两种扩展方法——预训练和推理——将相互补充。随着 GPT-4.5 等模型通过预训练变得更智能、知识更渊博,它们将为推理和工具使用代理提供更强大的基础。
安全
模型能力的每一次提升也是使模型更安全的机会。GPT-4.5 使用新的监督技术进行训练,这些技术与传统的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 方法(如用于 GPT-4o 的方法)相结合。我们希望这项工作将为调整更强大的未来模型奠定基础。
为了对我们的改进进行压力测试,我们在部署之前根据我们的准备框架进行了一套安全测试。我们发现,扩展 GPT 范式有助于提高我们评估中的能力。我们将在随附的系统卡中发布这些评估的详细结果。
如何在 ChatGPT 中使用 GPT-4.5
从今天开始,ChatGPT Pro 用户将能够在网页、移动和桌面上的模型选择器中选择 GPT-4.5。我们将在下周开始向 Plus 和 Team 用户推出,然后在接下来的一周向 Enterprise 和 Edu 用户推出。
GPT-4.5 可以通过搜索访问最新的最新信息,支持文件和图像上传,并且可以使用画布处理写作和代码。但是,GPT-4.5 目前不支持 ChatGPT 中的语音模式、视频和屏幕共享等多模态功能。将来,我们将努力简化用户体验,以便 AI“为您工作”。
如何在 API 中使用 GPT-4.5
我们还向所有付费使用层的开发者预览了聊天完成 API、助手 API 和批量 API 中的 GPT-4.5。该模型支持函数调用、结构化输出、流式传输和系统消息等关键功能。它还支持通过图像输入实现的视觉功能。
根据早期测试,开发者可能会发现 GPT-4.5 对于受益于其更高情商和创造力的应用程序特别有用,例如写作帮助、沟通、学习、辅导和头脑风暴。它还在代理规划和执行方面表现出强大的能力,包括多步骤编码工作流程和复杂的任务自动化。
GPT-4.5 是一个非常庞大且计算密集型的模型,因此比 GPT-4o 更昂贵,并且不能替代它。因此,我们正在评估是否长期在 API 中继续提供它,因为我们需要在支持当前功能和构建未来模型之间取得平衡。我们期待了解更多关于其优势、功能和在实际环境中的潜在应用。如果 GPT-4.5 为您的用例提供了独特的价值,您的反馈将在指导我们的决策方面发挥重要作用。
结论
每次计算量级的新增都会带来新的功能。GPT-4.5 是无监督学习可能实现的极限模型。我们不断被社区在发现新能力和意想不到的用例方面的创造力所震惊。通过 GPT-4.5,我们邀请您探索无监督学习的前沿,并与我们一起发现新的能力。
附录
下面,我们提供 GPT-4.5 在标准学术基准测试中的结果,以说明其在传统上与推理相关的任务中的当前性能。即使仅通过扩展无监督学习,GPT-4.5 也显示出比 GPT-4o 等以前的模型有意义的改进。尽管如此,我们期待通过此次发布更全面地了解 GPT-4.5 的功能,因为我们认识到学术基准测试并不总是反映现实世界的实用性。
模型评估分数
