OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

OpenAI 再度刷新大模型天花板——GPT-5.2 正式发布。这款专为专业知识工作和长期运行智能体打造的前沿模型,在编码、长上下文推理、视觉理解、工具调用等核心能力上实现跨越式提升,甚至在覆盖 44 个职业的 GDPval 专业任务基准测试中,以 70.9% 的胜出/持平率超越人类行业专家,成为首个在真实专业场景中达到人类水准的 AI 模型。

目前,ChatGPT 付费用户已可逐步体验 GPT-5.2 的三大版本(Instant/Thinking/Pro),API 也同步向所有开发者开放。对于专业人士而言,这款模型将大幅提升复杂任务的处理效率——普通企业用户日均节省 40-60 分钟,重度用户每周可省超 10 小时。

核心性能突破:全方位碾压前代,多项基准创纪录

GPT-5.2 的实力,体现在一组组亮眼的基准测试数据中,尤其是 Thinking 版本,几乎在所有专业场景都实现了对 GPT-5.1 的大幅超越:

测试基准GPT-5.2 Thinking 表现GPT-5.1 Thinking 表现核心价值
GDPval(44类职业知识任务)70.9% 胜出/持平38.8%(GPT-5)首次超越人类专家,完成PPT/表格等任务速度快11倍,成本不足1%
SWE-Bench Pro(多语言软件工程)55.6%50.8%覆盖4种编程语言,更贴近工业级开发需求
SWE-bench Verified(代码验证)80.0%76.3%调试生产代码、重构大型项目更可靠
GPQA Diamond(研究生级科学问题)92.4%88.1%无工具辅助下,科学研究问答准确率大幅提升
AIME 2025(竞赛数学)100.0%94.0%完美解决竞赛级数学题,推理能力再上台阶
ARC-AGI-2(抽象推理)52.9%17.6%抽象问题解决能力提升超2倍,接近人类灵活思维

除此之外,GPT-5.2 还有三大核心升级,直击专业用户痛点:

  1. 幻觉率大降30%:在匿名 ChatGPT 查询测试中,错误回复相对减少 30%,研究、写作、决策支持更可靠。
  2. 长上下文能力登顶:在 256k token 规模的 MRCRv2 测试中接近 100% 准确率,轻松处理百万字级报告、合同、多文件项目,配合 /compact 端点可扩展有效上下文窗口。
  3. 视觉理解能力翻倍:图表推理、软件界面解读错误率减半,能精准识别主板等硬件组件的位置与边界,支持财务仪表板、产品截图等视觉驱动的工作流。

分场景能力解析:专业工作流的“全能助手”

1. 专业任务:比人类专家更快更省

GPT-5.2 Thinking 是首个在 GDPval 测试中超越人类的模型,完成制作演示文稿、搭建投行三表模型、设计杠杆收购模型等任务时,速度是人类的11倍,成本仅为1%

OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升

例如在财富500强公司电子表格建模任务中,其得分从 GPT-5.1 的 59.1% 提升至 68.4%,生成的表格和幻灯片在复杂性、格式规范性上大幅优化。ChatGPT 付费用户选择 Thinking/Pro 版本即可使用该功能

2. 编码能力:跨栈开发的“超级搭档”

在软件工程领域,GPT-5.2 不仅刷新了多语言测试基准,还在前端开发中展现出更强实力——尤其是涉及 3D 元素的非常规 UI 开发,能根据单一提示生成完整的交互页面,调试、重构代码的效率显著提升,手动干预需求大幅减少。

3. 工具调用:端到端工作流无缝衔接

在 Tau2-bench Telecom 测试中,GPT-5.2 Thinking 取得 98.7% 的超高得分,能在长期多轮任务中可靠调用工具。例如处理复杂客户服务案例时,可自动协调多智能体完成航班改签、特殊座位安排、补偿申请等全流程,步骤中断率远低于前代。

4. 科学研究:加速数学与科研突破

GPT-5.2 Pro 在 GPQA Diamond 测试中达到 93.2% 的准确率,在前沿数学领域(FrontierMath 1-3级)解决率达 40.3%。更值得关注的是,已有研究者借助 GPT-5.2 Pro 探索统计学习理论的开放问题,模型提出的证明思路经人类验证后,已通过外部专家评审。

版本划分与使用场景:按需选择,各取所长

GPT-5.2 提供三大版本,覆盖从日常查询到顶尖专业任务的全需求:

版本定位核心适用场景
GPT-5.2 Instant快速高效的日常助手信息查询、操作指南、技术写作、翻译,对话风格更温暖
GPT-5.2 Thinking深度工作主力编码、长文档总结、文件分析、数学推理、复杂规划
GPT-5.2 Pro顶尖难题解决方案高难度科研、复杂编程、高精度决策支持,错误率最低

安全性升级:更贴心的风险管控

GPT-5.2 延续了 GPT-5 的安全完成技术,在敏感对话处理上大幅优化:

  • 针对心理健康、情感依赖、自残等风险提示的回应质量显著提升,不受欢迎的回应比例低于前代;
  • 初步部署年龄预测模型,自动为18岁以下用户应用内容保护,补充现有家长控制机制。

可用性与定价:付费用户优先体验,API 成本透明

  1. ChatGPT 端:即日起向 Plus/Pro/Business/Enterprise 付费用户逐步推送,GPT-5.1 仍将保留3个月后淘汰;
  2. API 端:三大版本同步开放,分别对应 gpt-5.2-chat-latest(Instant)、gpt-5.2(Thinking)、gpt-5.2-pro(Pro),支持xhigh 推理强度,适配高质量任务需求;
  3. 定价策略:输入 token 成本高于 GPT-5.1,但因 token 效率提升,完成同等质量任务的总成本更低。具体定价如下:
模型输入 token 单价缓存输入折扣输出 token 单价
gpt-5.2 / gpt-5.2-chat-latest$1.75/百万90% 折扣$14/百万
gpt-5.2-pro$21/百万-$168/百万
gpt-5.1 / gpt-5.1-chat-latest$1.25/百万90% 折扣$10/百万

此外,OpenAI 透露,未来几周将发布针对 Codex 优化的 GPT-5.2 版本,进一步提升代码生成体验。

背后的技术支撑:英伟达+微软Azure 强强联合

GPT-5.2 的训练依托于 英伟达 H100/H200/GB200-NVL72 GPU 与微软 Azure 数据中心的大规模基础设施,这一合作不仅保障了模型训练的效率,更让 OpenAI 能够快速将前沿技术推向市场。

OpenAI正式发布GPT-5.2 :GDPval 超人类专家,编码/长上下文/视觉能力全面跃升
© 版权声明

相关文章

暂无评论

none
暂无评论...