OpenAI 于今日正式推出其最新旗舰模型 —— GPT-5,标志着 ChatGPT 进入一个全新阶段。这不仅是性能的升级,更是一次范式转变:从“回答问题的聊天机器人”向“代表用户完成任务的智能代理”演进。

GPT-5 是 OpenAI 首个“统一模型”——它融合了此前 o 系列模型的深度推理能力 与 GPT 系列的快速响应优势,通过一个智能路由器动态决定何时“快速作答”,何时“深入思考”。
从即日起,GPT-5 将作为 ChatGPT 的默认模型,面向所有用户逐步开放。
什么是“统一模型”?
GPT-5 的核心创新在于其自适应架构:
- 智能高效路径:处理简单问题时,快速生成响应
- 深度推理路径(GPT-5 Thinking):面对复杂任务自动启动多步推理
- 实时路由器:根据问题复杂度、工具需求或用户提示(如“请认真思考”)动态选择路径
这一设计让用户无需手动切换模型或调整设置,系统会自动判断最佳响应方式。
OpenAI 表示,未来目标是将这些能力整合进单一模型,实现真正的“自感知思考”。
更强的任务完成能力
相比 GPT-4,GPT-5 的关键跃迁在于端到端任务执行能力:
- 根据需求生成完整的软件应用(“氛围编码”)
- 解析研究资料并生成结构化简报
- 协助管理日程、导航网页、完成多步骤操作
正如 OpenAI CEO 萨姆·奥特曼在发布会上所说:
“拥有像 GPT-5 这样的系统,在历史上几乎是不可想象的。”
“这是我们在通往通用人工智能(AGI)道路上迈出的重要一步。”
免费用户也能用上“推理模型”
一个重大变化是:GPT-5 将作为免费用户的默认模型。
此前,具备推理能力的高级模型(如 o3)仅对 Plus 及以上订阅者开放。此次开放意味着:
- 更多用户可体验高质量 AI 推理
- 降低使用门槛,践行 OpenAI “普惠 AI”的长期使命
ChatGPT 副总裁尼克·特利表示:
“这是我践行使命的一种方式,确保这些技术真正惠及每一个人。”
实测表现:在关键领域领先,部分场景持平
GPT-5 并非在所有基准测试中全面碾压对手,而是在多个核心领域实现小幅领先或显著提升。
✅ 显著领先的领域
| 基准 | 任务 | GPT-5 成绩 |
|---|---|---|
| SWE-bench Verified | 真实世界编码任务 | 74.9% ✅ 超越 Claude Opus 4.1(74.5%) |
| GPQA Diamond | 博士级科学问题(GPT-5 Pro) | 89.4% ✅ 领先 Grok 4 Heavy(88.9%)和 Claude(80.9%) |
| HealthBench Hard(幻觉率) | 医疗问答准确性 | 1.6% ✅ 远低于 GPT-4o(12.9%)和 o3(15.8%) |
在健康领域,GPT-5 更能主动识别潜在问题,帮助用户理解检查报告、准备问诊问题。

⚖️ 表现接近或略逊的领域
| 基准 | GPT-5 成绩 | 对手表现 |
|---|---|---|
| Humanity’s Last Exam(带工具) | 42% | Grok 4 Heavy:44.4% |
| Tau-bench:航空网站导航 | 63.5% | o3:64.8% |
| Tau-bench:零售网站导航 | 81.1% | Claude Opus 4.1:82.4% |
这些结果表明,GPT-5 并未在所有代理任务上占据绝对优势,AI 能力的竞争仍处于动态拉锯中。
关键改进:更少幻觉,更少欺骗,更安全
📉 幻觉率显著下降
幻觉(hallucination)一直是大模型的顽疾。GPT-5 在这方面取得实质性进展:
| 模型 | 幻觉率(错误信息概率) |
|---|---|
| GPT-5(带思考) | 4.8% |
| o3 | 22% |
| GPT-4o | 20.6% |
在 HealthBench 等专业领域,幻觉率更是从两位数降至 1.6%,大幅提升可信度。
🛡️ 欺骗行为减少
OpenAI 安全研究负责人亚历克斯·博伊特尔指出,GPT-5 在“是否撒谎以达成目标”方面的倾向显著降低:
- 更能识别自身能力边界
- 面对无法完成的任务时,更倾向于诚实说明而非强行作答
- 对恶意请求识别更准,对无害查询拒绝更少
这使得模型更“透明、可信赖”,用户体验更自然。
✍️ 写作与创意能力获好评
尽管难以量化,OpenAI 强调 GPT-5 在主观领域表现更优:
- 写作更具“品味”和自然节奏
- 创意设计建议更符合人类审美
- 回应更少机械感,减少无意义表情符号和过度奉承
特利形容:“这个模型的‘氛围’非常好。”
用户体验升级:四种新对话人格
为增强个性化体验,OpenAI 推出四种预设人格模式(研究预览),可在设置中一键切换:
| 人格 | 风格特点 |
|---|---|
| Cynic(怀疑者) | 批判性思维,不轻易认同 |
| Robot(机器人) | 理性、简洁、逻辑优先 |
| Listener(倾听者) | 共情、支持、鼓励表达 |
| Nerd(极客) | 深度、细节控、术语丰富 |
📌 初始仅支持文本聊天,未来将扩展至语音交互。
订阅与访问权限
| 用户类型 | GPT-5 访问情况 |
|---|---|
| Free 用户 | 默认模型,使用量有限;达上限后切换至轻量版 GPT-5 mini |
| Plus 用户($20/月) | 更高使用配额,日常默认模型 |
| Pro 用户($200/月) | 无限制使用 GPT-5 及 GPT-5 Pro(增强推理版) |
| Team / Edu / Enterprise | 下周起默认启用,支持组织级部署 |
开发者支持:API 与成本
GPT-5 将以三种规模接入 OpenAI API:
| 模型 | 适用场景 |
|---|---|
| gpt-5 | 高复杂度任务,长推理时间 |
| gpt-5-mini | 中等任务,平衡速度与成本 |
| gpt-5-nano | 简单任务,低延迟响应 |
💰 定价(开发者)
- 输入:$1.25 / 百万 tokens
- 输出:$10 / 百万 tokens
示例:处理整套《指环王》文本(约75万字)的输入成本不足1.3美元。
此外,开发者现在可通过 API 控制回复长度,灵活调节输出详略。














