OpenAI正式发布GPT-5.2 ：GDPval 超人类专家，编码/长上下文/视觉能力全面跃升

84 0

OpenAI 再度刷新大模型天花板——GPT-5.2 正式发布。这款专为专业知识工作和长期运行智能体打造的前沿模型，在编码、长上下文推理、视觉理解、工具调用等核心能力上实现跨越式提升，甚至在覆盖 44 个职业的 GDPval 专业任务基准测试中，以 70.9% 的胜出/持平率超越人类行业专家，成为首个在真实专业场景中达到人类水准的 AI 模型。

官方介绍：https://openai.com/index/introducing-gpt-5-2

目前，ChatGPT 付费用户已可逐步体验 GPT-5.2 的三大版本（Instant/Thinking/Pro），API 也同步向所有开发者开放。对于专业人士而言，这款模型将大幅提升复杂任务的处理效率——普通企业用户日均节省 40-60 分钟，重度用户每周可省超 10 小时。

核心性能突破：全方位碾压前代，多项基准创纪录

GPT-5.2 的实力，体现在一组组亮眼的基准测试数据中，尤其是 Thinking 版本，几乎在所有专业场景都实现了对 GPT-5.1 的大幅超越：

测试基准	GPT-5.2 Thinking 表现	GPT-5.1 Thinking 表现	核心价值
GDPval（44类职业知识任务）	70.9% 胜出/持平	38.8%（GPT-5）	首次超越人类专家，完成PPT/表格等任务速度快11倍，成本不足1%
SWE-Bench Pro（多语言软件工程）	55.6%	50.8%	覆盖4种编程语言，更贴近工业级开发需求
SWE-bench Verified（代码验证）	80.0%	76.3%	调试生产代码、重构大型项目更可靠
GPQA Diamond（研究生级科学问题）	92.4%	88.1%	无工具辅助下，科学研究问答准确率大幅提升
AIME 2025（竞赛数学）	100.0%	94.0%	完美解决竞赛级数学题，推理能力再上台阶
ARC-AGI-2（抽象推理）	52.9%	17.6%	抽象问题解决能力提升超2倍，接近人类灵活思维

除此之外，GPT-5.2 还有三大核心升级，直击专业用户痛点：

幻觉率大降30%：在匿名 ChatGPT 查询测试中，错误回复相对减少 30%，研究、写作、决策支持更可靠。
长上下文能力登顶：在 256k token 规模的 MRCRv2 测试中接近 100% 准确率，轻松处理百万字级报告、合同、多文件项目，配合 /compact 端点可扩展有效上下文窗口。
视觉理解能力翻倍：图表推理、软件界面解读错误率减半，能精准识别主板等硬件组件的位置与边界，支持财务仪表板、产品截图等视觉驱动的工作流。

分场景能力解析：专业工作流的“全能助手”

1. 专业任务：比人类专家更快更省

GPT-5.2 Thinking 是首个在 GDPval 测试中超越人类的模型，完成制作演示文稿、搭建投行三表模型、设计杠杆收购模型等任务时，速度是人类的11倍，成本仅为1%。

OpenAI正式发布GPT-5.2 ：GDPval 超人类专家，编码/长上下文/视觉能力全面跃升

例如在财富500强公司电子表格建模任务中，其得分从 GPT-5.1 的 59.1% 提升至 68.4%，生成的表格和幻灯片在复杂性、格式规范性上大幅优化。ChatGPT 付费用户选择 Thinking/Pro 版本即可使用该功能。

2. 编码能力：跨栈开发的“超级搭档”

在软件工程领域，GPT-5.2 不仅刷新了多语言测试基准，还在前端开发中展现出更强实力——尤其是涉及 3D 元素的非常规 UI 开发，能根据单一提示生成完整的交互页面，调试、重构代码的效率显著提升，手动干预需求大幅减少。

3. 工具调用：端到端工作流无缝衔接

在 Tau2-bench Telecom 测试中，GPT-5.2 Thinking 取得 98.7% 的超高得分，能在长期多轮任务中可靠调用工具。例如处理复杂客户服务案例时，可自动协调多智能体完成航班改签、特殊座位安排、补偿申请等全流程，步骤中断率远低于前代。

4. 科学研究：加速数学与科研突破

GPT-5.2 Pro 在 GPQA Diamond 测试中达到 93.2% 的准确率，在前沿数学领域（FrontierMath 1-3级）解决率达 40.3%。更值得关注的是，已有研究者借助 GPT-5.2 Pro 探索统计学习理论的开放问题，模型提出的证明思路经人类验证后，已通过外部专家评审。

版本划分与使用场景：按需选择，各取所长

GPT-5.2 提供三大版本，覆盖从日常查询到顶尖专业任务的全需求：

版本	定位	核心适用场景
GPT-5.2 Instant	快速高效的日常助手	信息查询、操作指南、技术写作、翻译，对话风格更温暖
GPT-5.2 Thinking	深度工作主力	编码、长文档总结、文件分析、数学推理、复杂规划
GPT-5.2 Pro	顶尖难题解决方案	高难度科研、复杂编程、高精度决策支持，错误率最低

安全性升级：更贴心的风险管控

GPT-5.2 延续了 GPT-5 的安全完成技术，在敏感对话处理上大幅优化：

针对心理健康、情感依赖、自残等风险提示的回应质量显著提升，不受欢迎的回应比例低于前代；
初步部署年龄预测模型，自动为18岁以下用户应用内容保护，补充现有家长控制机制。

可用性与定价：付费用户优先体验，API 成本透明

ChatGPT 端：即日起向 Plus/Pro/Business/Enterprise 付费用户逐步推送，GPT-5.1 仍将保留3个月后淘汰；
API 端：三大版本同步开放，分别对应 gpt-5.2-chat-latest（Instant）、gpt-5.2（Thinking）、gpt-5.2-pro（Pro），支持xhigh 推理强度，适配高质量任务需求；
定价策略：输入 token 成本高于 GPT-5.1，但因 token 效率提升，完成同等质量任务的总成本更低。具体定价如下：

模型	输入 token 单价	缓存输入折扣	输出 token 单价
gpt-5.2 / gpt-5.2-chat-latest	$1.75/百万	90% 折扣	$14/百万
gpt-5.2-pro	$21/百万	-	$168/百万
gpt-5.1 / gpt-5.1-chat-latest	$1.25/百万	90% 折扣	$10/百万