OpenAI 发布统一智能模型GPT-5：迈向“AGI”的关键一步

早报8个月前发布小马良

403 0

OpenAI 于今日正式推出其最新旗舰模型 —— GPT-5，标志着 ChatGPT 进入一个全新阶段。这不仅是性能的升级，更是一次范式转变：从“回答问题的聊天机器人”向“代表用户完成任务的智能代理”演进。

OpenAI 发布统一智能模型GPT-5：迈向“AGI”的关键一步

GPT-5 是 OpenAI 首个“统一模型”——它融合了此前 o 系列模型的深度推理能力 与 GPT 系列的快速响应优势，通过一个智能路由器动态决定何时“快速作答”，何时“深入思考”。

从即日起，GPT-5 将作为 ChatGPT 的默认模型，面向所有用户逐步开放。

什么是“统一模型”？

GPT-5 的核心创新在于其自适应架构：

智能高效路径：处理简单问题时，快速生成响应
深度推理路径（GPT-5 Thinking）：面对复杂任务自动启动多步推理
实时路由器：根据问题复杂度、工具需求或用户提示（如“请认真思考”）动态选择路径

这一设计让用户无需手动切换模型或调整设置，系统会自动判断最佳响应方式。

OpenAI 表示，未来目标是将这些能力整合进单一模型，实现真正的“自感知思考”。

更强的任务完成能力

相比 GPT-4，GPT-5 的关键跃迁在于端到端任务执行能力：

根据需求生成完整的软件应用（“氛围编码”）
解析研究资料并生成结构化简报
协助管理日程、导航网页、完成多步骤操作

正如 OpenAI CEO 萨姆·奥特曼在发布会上所说：

“拥有像 GPT-5 这样的系统，在历史上几乎是不可想象的。”
“这是我们在通往通用人工智能（AGI）道路上迈出的重要一步。”

免费用户也能用上“推理模型”

一个重大变化是：GPT-5 将作为免费用户的默认模型。

此前，具备推理能力的高级模型（如 o3）仅对 Plus 及以上订阅者开放。此次开放意味着：

更多用户可体验高质量 AI 推理
降低使用门槛，践行 OpenAI “普惠 AI”的长期使命

ChatGPT 副总裁尼克·特利表示：

“这是我践行使命的一种方式，确保这些技术真正惠及每一个人。”

实测表现：在关键领域领先，部分场景持平

GPT-5 并非在所有基准测试中全面碾压对手，而是在多个核心领域实现小幅领先或显著提升。

✅ 显著领先的领域

基准	任务	GPT-5 成绩
SWE-bench Verified	真实世界编码任务	74.9% ✅ 超越 Claude Opus 4.1（74.5%）
GPQA Diamond	博士级科学问题（GPT-5 Pro）	89.4% ✅ 领先 Grok 4 Heavy（88.9%）和 Claude（80.9%）
HealthBench Hard（幻觉率）	医疗问答准确性	1.6% ✅ 远低于 GPT-4o（12.9%）和 o3（15.8%）

在健康领域，GPT-5 更能主动识别潜在问题，帮助用户理解检查报告、准备问诊问题。

OpenAI 发布统一智能模型GPT-5：迈向“AGI”的关键一步

⚖️ 表现接近或略逊的领域

基准	GPT-5 成绩	对手表现
Humanity’s Last Exam（带工具）	42%	Grok 4 Heavy：44.4%
Tau-bench：航空网站导航	63.5%	o3：64.8%
Tau-bench：零售网站导航	81.1%	Claude Opus 4.1：82.4%

这些结果表明，GPT-5 并未在所有代理任务上占据绝对优势，AI 能力的竞争仍处于动态拉锯中。

关键改进：更少幻觉，更少欺骗，更安全

📉 幻觉率显著下降

幻觉（hallucination）一直是大模型的顽疾。GPT-5 在这方面取得实质性进展：

模型	幻觉率（错误信息概率）
GPT-5（带思考）	4.8%
o3	22%
GPT-4o	20.6%

在 HealthBench 等专业领域，幻觉率更是从两位数降至 1.6%，大幅提升可信度。

🛡️ 欺骗行为减少

OpenAI 安全研究负责人亚历克斯·博伊特尔指出，GPT-5 在“是否撒谎以达成目标”方面的倾向显著降低：

更能识别自身能力边界
面对无法完成的任务时，更倾向于诚实说明而非强行作答
对恶意请求识别更准，对无害查询拒绝更少

这使得模型更“透明、可信赖”，用户体验更自然。

✍️ 写作与创意能力获好评

尽管难以量化，OpenAI 强调 GPT-5 在主观领域表现更优：

写作更具“品味”和自然节奏
创意设计建议更符合人类审美
回应更少机械感，减少无意义表情符号和过度奉承

特利形容：“这个模型的‘氛围’非常好。”

用户体验升级：四种新对话人格

为增强个性化体验，OpenAI 推出四种预设人格模式（研究预览），可在设置中一键切换：

人格	风格特点
Cynic（怀疑者）	批判性思维，不轻易认同
Robot（机器人）	理性、简洁、逻辑优先
Listener（倾听者）	共情、支持、鼓励表达
Nerd（极客）	深度、细节控、术语丰富

📌 初始仅支持文本聊天，未来将扩展至语音交互。

订阅与访问权限

用户类型	GPT-5 访问情况
Free 用户	默认模型，使用量有限；达上限后切换至轻量版 GPT-5 mini
Plus 用户（$20/月）	更高使用配额，日常默认模型
Pro 用户（$200/月）	无限制使用 GPT-5 及 GPT-5 Pro（增强推理版）
Team / Edu / Enterprise	下周起默认启用，支持组织级部署

开发者支持：API 与成本

GPT-5 将以三种规模接入 OpenAI API：

模型	适用场景
gpt-5	高复杂度任务，长推理时间
gpt-5-mini	中等任务，平衡速度与成本
gpt-5-nano	简单任务，低延迟响应

💰 定价（开发者）

输入：$1.25 / 百万 tokens
输出：$10 / 百万 tokens

示例：处理整套《指环王》文本（约75万字）的输入成本不足1.3美元。

此外，开发者现在可通过 API 控制回复长度，灵活调节输出详略。

早报 # GPT-5 # OpenAI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Bolt与 AnimaApp 合作：将 Figma 设计无缝转化为像素级完美的全栈应用程序

Bolt与 AnimaApp 合作：将 Figma 设计无缝转化为像素级完美的全栈应用程序

早报 # Bolt # Figma

1年前

05200

生数科技旗下AI 视频生成平台上线视频生成大模型Vidu 2.0，10 秒即可“出片”

生数科技旗下AI 视频生成平台上线视频生成大模型Vidu 2.0，10 秒即可“出片”

早报 # Vidu 2.0 # 生数科技

1年前

02320

Grok 即将更新：新增集中化文件管理选项卡，提升日常使用效率

Grok 即将更新：新增集中化文件管理选项卡，提升日常使用效率

早报 # Grok # 文件

9个月前

02110

Ollama 0.9.5 发布：新增 macOS 和 Windows 应用程序设置

Ollama 0.9.5 发布：新增 macOS 和 Windows 应用程序设置

早报 # Ollama

9个月前

03190

暂无评论

none

暂无评论...