OpenAI 再度刷新大模型天花板——GPT-5.2 正式发布。这款专为专业知识工作和长期运行智能体打造的前沿模型,在编码、长上下文推理、视觉理解、工具调用等核心能力上实现跨越式提升,甚至在覆盖 44 个职业的 GDPval 专业任务基准测试中,以 70.9% 的胜出/持平率超越人类行业专家,成为首个在真实专业场景中达到人类水准的 AI 模型。
目前,ChatGPT 付费用户已可逐步体验 GPT-5.2 的三大版本(Instant/Thinking/Pro),API 也同步向所有开发者开放。对于专业人士而言,这款模型将大幅提升复杂任务的处理效率——普通企业用户日均节省 40-60 分钟,重度用户每周可省超 10 小时。
核心性能突破:全方位碾压前代,多项基准创纪录
GPT-5.2 的实力,体现在一组组亮眼的基准测试数据中,尤其是 Thinking 版本,几乎在所有专业场景都实现了对 GPT-5.1 的大幅超越:
| 测试基准 | GPT-5.2 Thinking 表现 | GPT-5.1 Thinking 表现 | 核心价值 |
|---|---|---|---|
| GDPval(44类职业知识任务) | 70.9% 胜出/持平 | 38.8%(GPT-5) | 首次超越人类专家,完成PPT/表格等任务速度快11倍,成本不足1% |
| SWE-Bench Pro(多语言软件工程) | 55.6% | 50.8% | 覆盖4种编程语言,更贴近工业级开发需求 |
| SWE-bench Verified(代码验证) | 80.0% | 76.3% | 调试生产代码、重构大型项目更可靠 |
| GPQA Diamond(研究生级科学问题) | 92.4% | 88.1% | 无工具辅助下,科学研究问答准确率大幅提升 |
| AIME 2025(竞赛数学) | 100.0% | 94.0% | 完美解决竞赛级数学题,推理能力再上台阶 |
| ARC-AGI-2(抽象推理) | 52.9% | 17.6% | 抽象问题解决能力提升超2倍,接近人类灵活思维 |
除此之外,GPT-5.2 还有三大核心升级,直击专业用户痛点:
- 幻觉率大降30%:在匿名 ChatGPT 查询测试中,错误回复相对减少 30%,研究、写作、决策支持更可靠。
- 长上下文能力登顶:在 256k token 规模的 MRCRv2 测试中接近 100% 准确率,轻松处理百万字级报告、合同、多文件项目,配合 /compact 端点可扩展有效上下文窗口。
- 视觉理解能力翻倍:图表推理、软件界面解读错误率减半,能精准识别主板等硬件组件的位置与边界,支持财务仪表板、产品截图等视觉驱动的工作流。
分场景能力解析:专业工作流的“全能助手”
1. 专业任务:比人类专家更快更省
GPT-5.2 Thinking 是首个在 GDPval 测试中超越人类的模型,完成制作演示文稿、搭建投行三表模型、设计杠杆收购模型等任务时,速度是人类的11倍,成本仅为1%。

例如在财富500强公司电子表格建模任务中,其得分从 GPT-5.1 的 59.1% 提升至 68.4%,生成的表格和幻灯片在复杂性、格式规范性上大幅优化。ChatGPT 付费用户选择 Thinking/Pro 版本即可使用该功能。
2. 编码能力:跨栈开发的“超级搭档”
在软件工程领域,GPT-5.2 不仅刷新了多语言测试基准,还在前端开发中展现出更强实力——尤其是涉及 3D 元素的非常规 UI 开发,能根据单一提示生成完整的交互页面,调试、重构代码的效率显著提升,手动干预需求大幅减少。
3. 工具调用:端到端工作流无缝衔接
在 Tau2-bench Telecom 测试中,GPT-5.2 Thinking 取得 98.7% 的超高得分,能在长期多轮任务中可靠调用工具。例如处理复杂客户服务案例时,可自动协调多智能体完成航班改签、特殊座位安排、补偿申请等全流程,步骤中断率远低于前代。
4. 科学研究:加速数学与科研突破
GPT-5.2 Pro 在 GPQA Diamond 测试中达到 93.2% 的准确率,在前沿数学领域(FrontierMath 1-3级)解决率达 40.3%。更值得关注的是,已有研究者借助 GPT-5.2 Pro 探索统计学习理论的开放问题,模型提出的证明思路经人类验证后,已通过外部专家评审。
版本划分与使用场景:按需选择,各取所长
GPT-5.2 提供三大版本,覆盖从日常查询到顶尖专业任务的全需求:
| 版本 | 定位 | 核心适用场景 |
|---|---|---|
| GPT-5.2 Instant | 快速高效的日常助手 | 信息查询、操作指南、技术写作、翻译,对话风格更温暖 |
| GPT-5.2 Thinking | 深度工作主力 | 编码、长文档总结、文件分析、数学推理、复杂规划 |
| GPT-5.2 Pro | 顶尖难题解决方案 | 高难度科研、复杂编程、高精度决策支持,错误率最低 |
安全性升级:更贴心的风险管控
GPT-5.2 延续了 GPT-5 的安全完成技术,在敏感对话处理上大幅优化:
- 针对心理健康、情感依赖、自残等风险提示的回应质量显著提升,不受欢迎的回应比例低于前代;
- 初步部署年龄预测模型,自动为18岁以下用户应用内容保护,补充现有家长控制机制。
可用性与定价:付费用户优先体验,API 成本透明
- ChatGPT 端:即日起向 Plus/Pro/Business/Enterprise 付费用户逐步推送,GPT-5.1 仍将保留3个月后淘汰;
- API 端:三大版本同步开放,分别对应
gpt-5.2-chat-latest(Instant)、gpt-5.2(Thinking)、gpt-5.2-pro(Pro),支持xhigh 推理强度,适配高质量任务需求; - 定价策略:输入 token 成本高于 GPT-5.1,但因 token 效率提升,完成同等质量任务的总成本更低。具体定价如下:
| 模型 | 输入 token 单价 | 缓存输入折扣 | 输出 token 单价 |
|---|---|---|---|
| gpt-5.2 / gpt-5.2-chat-latest | $1.75/百万 | 90% 折扣 | $14/百万 |
| gpt-5.2-pro | $21/百万 | - | $168/百万 |
| gpt-5.1 / gpt-5.1-chat-latest | $1.25/百万 | 90% 折扣 | $10/百万 |
此外,OpenAI 透露,未来几周将发布针对 Codex 优化的 GPT-5.2 版本,进一步提升代码生成体验。
背后的技术支撑:英伟达+微软Azure 强强联合
GPT-5.2 的训练依托于 英伟达 H100/H200/GB200-NVL72 GPU 与微软 Azure 数据中心的大规模基础设施,这一合作不仅保障了模型训练的效率,更让 OpenAI 能够快速将前沿技术推向市场。
















