OpenAI 发布 统一智能模型GPT-5:迈向“AGI”的关键一步

早报4个月前发布 小马良
282 0

OpenAI 于今日正式推出其最新旗舰模型 —— GPT-5,标志着 ChatGPT 进入一个全新阶段。这不仅是性能的升级,更是一次范式转变:从“回答问题的聊天机器人”向“代表用户完成任务的智能代理”演进。

OpenAI 发布 统一智能模型GPT-5:迈向“AGI”的关键一步

GPT-5 是 OpenAI 首个“统一模型”——它融合了此前 o 系列模型的深度推理能力 与 GPT 系列的快速响应优势,通过一个智能路由器动态决定何时“快速作答”,何时“深入思考”。

从即日起,GPT-5 将作为 ChatGPT 的默认模型,面向所有用户逐步开放。

什么是“统一模型”?

GPT-5 的核心创新在于其自适应架构

  • 智能高效路径:处理简单问题时,快速生成响应
  • 深度推理路径(GPT-5 Thinking):面对复杂任务自动启动多步推理
  • 实时路由器:根据问题复杂度、工具需求或用户提示(如“请认真思考”)动态选择路径

这一设计让用户无需手动切换模型或调整设置,系统会自动判断最佳响应方式。

OpenAI 表示,未来目标是将这些能力整合进单一模型,实现真正的“自感知思考”。

更强的任务完成能力

相比 GPT-4,GPT-5 的关键跃迁在于端到端任务执行能力

  • 根据需求生成完整的软件应用(“氛围编码”)
  • 解析研究资料并生成结构化简报
  • 协助管理日程、导航网页、完成多步骤操作

正如 OpenAI CEO 萨姆·奥特曼在发布会上所说:

“拥有像 GPT-5 这样的系统,在历史上几乎是不可想象的。”
“这是我们在通往通用人工智能(AGI)道路上迈出的重要一步。”

免费用户也能用上“推理模型”

一个重大变化是:GPT-5 将作为免费用户的默认模型

此前,具备推理能力的高级模型(如 o3)仅对 Plus 及以上订阅者开放。此次开放意味着:

  • 更多用户可体验高质量 AI 推理
  • 降低使用门槛,践行 OpenAI “普惠 AI”的长期使命

ChatGPT 副总裁尼克·特利表示:

“这是我践行使命的一种方式,确保这些技术真正惠及每一个人。”

实测表现:在关键领域领先,部分场景持平

GPT-5 并非在所有基准测试中全面碾压对手,而是在多个核心领域实现小幅领先或显著提升

✅ 显著领先的领域

基准任务GPT-5 成绩
SWE-bench Verified真实世界编码任务74.9% ✅
超越 Claude Opus 4.1(74.5%)
GPQA Diamond博士级科学问题(GPT-5 Pro)89.4% ✅
领先 Grok 4 Heavy(88.9%)和 Claude(80.9%)
HealthBench Hard(幻觉率)医疗问答准确性1.6% ✅
远低于 GPT-4o(12.9%)和 o3(15.8%)

在健康领域,GPT-5 更能主动识别潜在问题,帮助用户理解检查报告、准备问诊问题。

OpenAI 发布 统一智能模型GPT-5:迈向“AGI”的关键一步

⚖️ 表现接近或略逊的领域

基准GPT-5 成绩对手表现
Humanity’s Last Exam(带工具)42%Grok 4 Heavy:44.4%
Tau-bench:航空网站导航63.5%o3:64.8%
Tau-bench:零售网站导航81.1%Claude Opus 4.1:82.4%

这些结果表明,GPT-5 并未在所有代理任务上占据绝对优势,AI 能力的竞争仍处于动态拉锯中。

关键改进:更少幻觉,更少欺骗,更安全

📉 幻觉率显著下降

幻觉(hallucination)一直是大模型的顽疾。GPT-5 在这方面取得实质性进展:

模型幻觉率(错误信息概率)
GPT-5(带思考)4.8%
o322%
GPT-4o20.6%

在 HealthBench 等专业领域,幻觉率更是从两位数降至 1.6%,大幅提升可信度。

🛡️ 欺骗行为减少

OpenAI 安全研究负责人亚历克斯·博伊特尔指出,GPT-5 在“是否撒谎以达成目标”方面的倾向显著降低:

  • 更能识别自身能力边界
  • 面对无法完成的任务时,更倾向于诚实说明而非强行作答
  • 对恶意请求识别更准,对无害查询拒绝更少

这使得模型更“透明、可信赖”,用户体验更自然。

✍️ 写作与创意能力获好评

尽管难以量化,OpenAI 强调 GPT-5 在主观领域表现更优:

  • 写作更具“品味”和自然节奏
  • 创意设计建议更符合人类审美
  • 回应更少机械感,减少无意义表情符号和过度奉承

特利形容:“这个模型的‘氛围’非常好。”

用户体验升级:四种新对话人格

为增强个性化体验,OpenAI 推出四种预设人格模式(研究预览),可在设置中一键切换:

人格风格特点
Cynic(怀疑者)批判性思维,不轻易认同
Robot(机器人)理性、简洁、逻辑优先
Listener(倾听者)共情、支持、鼓励表达
Nerd(极客)深度、细节控、术语丰富

📌 初始仅支持文本聊天,未来将扩展至语音交互。

订阅与访问权限

用户类型GPT-5 访问情况
Free 用户默认模型,使用量有限;达上限后切换至轻量版 GPT-5 mini
Plus 用户($20/月)更高使用配额,日常默认模型
Pro 用户($200/月)无限制使用 GPT-5 及 GPT-5 Pro(增强推理版)
Team / Edu / Enterprise下周起默认启用,支持组织级部署

开发者支持:API 与成本

GPT-5 将以三种规模接入 OpenAI API:

模型适用场景
gpt-5高复杂度任务,长推理时间
gpt-5-mini中等任务,平衡速度与成本
gpt-5-nano简单任务,低延迟响应

💰 定价(开发者)

  • 输入:$1.25 / 百万 tokens
  • 输出:$10 / 百万 tokens

示例:处理整套《指环王》文本(约75万字)的输入成本不足1.3美元。

此外,开发者现在可通过 API 控制回复长度,灵活调节输出详略。

© 版权声明

相关文章

暂无评论

none
暂无评论...