“它不再只是陪你聊天的机器人,而是能真正操作你电脑、编写并调试代码、处理复杂报表的数字员工。”
OpenAI 正式推出 GPT-5.4,这是 GPT-5 系列中迄今为止最强大的通用模型。它不仅继承了 GPT-5.3-Codex 的顶尖编码能力,更首次引入了原生计算机使用(Native Computer Use)功能,标志着 AI 从“文本生成者”向“任务执行者”的根本性跨越。
- 官方介绍:https://openai.com/index/introducing-gpt-5-4
GPT-5.4 现已集成至 ChatGPT、Codex 及 API 平台,旨在成为开发者、企业及专业人士构建自主智能体(Agentic Workflows)的核心引擎。

核心突破:三大维度全面进化
1. 原生计算机使用:像人类一样操作屏幕
这是 GPT-5.4 最具革命性的升级。模型现在具备视觉感知 + 鼠标键盘控制的双重能力:
- 跨应用操作:能够理解屏幕截图,通过 Playwright 等库或直接模拟键鼠操作,在浏览器、Excel、PPT 等不同软件间无缝切换并完成任务。
- 超越人类的表现:在 OSWorld-Verified 基准测试中,GPT-5.4 以 75.0% 的成功率超越了人类平均水平(72.4%),远超 GPT-5.2 的 47.3%。
- 高分辨率支持:引入“原始(Raw)”图像输入模式,支持高达 1024 万像素 的完整保真度感知,确保在复杂 UI 界面中的点击精准无误。
2. 编码与工程能力的终极融合
GPT-5.4 将 GPT-5.3-Codex 的强悍基因融入通用模型:
- 项目级上下文:支持高达 100 万 Token 的上下文窗口(实验性),使智能体能理解整个代码库,进行跨文件的调试、重构和功能开发。
- 可视化调试:新增实验性技能 "Playwright (Interactive)",Codex 可以在构建 Web 应用的同时,实时运行测试、截图验证并自动修复 Bug。
- 速度与效率:开启“快速模式”后,Token 生成速度提升 1.5 倍,且作为目前 Token 效率最高的推理模型,它在解决同等问题时消耗的 Token 显著少于 GPT-5.2。
3. 知识工作与多模态推理
专为专业人士打造的“超级大脑”:
- Office 三件套大师:在内部测试中,GPT-5.4 生成的 Excel 建模任务得分高达 87.3%(GPT-5.2 仅 68.4%),生成的 PPT 在美学和内容上更受人类评分者青睐。
- 事实准确性提升:单个声明的错误率降低 33%,完整响应包含错误的概率降低 18%,是目前最“诚实”的 GPT 模型。
- 深度网络研究:在 BrowseComp 基准测试中,成功率跃升至 82.7%(GPT-5.4 Pro 达 89.3%),擅长从海量网页中提取“大海捞针”式的信息并综合成报告。

架构革新:工具搜索与可引导性
智能工具搜索 (Tool Search)
面对成千上万个 API 或 MCP 工具,GPT-5.4 不再需要将所有定义塞入提示词:
- 按需加载:模型拥有一个轻量级工具列表,仅在需要时动态查找并加载具体工具定义。
- 降本增效:在 Scale MCP Atlas 基准测试中,该方法在保持准确率不变的情况下,将 Token 用量减少了 47%,大幅降低了长工作流的成本。
可引导的思维链 (Guidable Thinking)
在 ChatGPT 中,GPT-5.4 Thinking 模式引入了前置计划功能:
- 中途干预:模型会在开始工作前概述计划,用户可在其执行过程中随时插入指令调整方向,无需重新开始对话。
- 长程记忆:即使经过长时间的思考和多步操作,模型仍能牢牢记住初始目标,确保输出不偏离轨道。
性能基准:全方位碾压前代
| 评估维度 | 基准测试 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | 人类表现 |
|---|---|---|---|---|---|
| 知识工作 | GDPval (专业任务) | 83.0% | 70.9% | 70.9% | - |
| 编码能力 | SWE-Bench Pro | 57.7% | 56.8% | 55.6% | - |
| 计算机操作 | OSWorld-Verified | 75.0% | 74.0%* | 47.3% | 72.4% |
| 工具使用 | Toolathlon | 54.6% | 51.9% | 46.3% | - |
| 网络搜索 | BrowseComp | 82.7% | 77.3% | 65.8% | - |
| 抽象推理 | ARC-AGI-2 | 73.3% | - | 52.9% | - |
(注:GPT-5.3-Codex 在新参数下得分为 74.0%)
可用性与定价策略
上线计划
- ChatGPT:即日起向 Plus、Team、Pro 用户开放 GPT-5.4 Thinking;Pro 和企业用户 可使用 GPT-5.4 Pro。
- API:
gpt-5.4和gpt-5.4-pro模型已上线。 - Codex:集成 GPT-5.4,支持 100 万上下文窗口实验。
- 退役通知:GPT-5.2 Thinking 将于 2026 年 6 月 5 日退役。
API 定价 (每百万 Token)
虽然单价略有上涨,但凭借更高的 Token 效率,实际任务成本可能更低。
| 模型 | 输入价格 | 缓存输入 | 输出价格 |
|---|---|---|---|
| gpt-5.4 | $2.50 | $0.25 | $15.00 |
| gpt-5.2 | $1.75 | $0.175 | $14.00 |
| gpt-5.4-pro | $30.00 | - | $180.00 |
| gpt-5.2-pro | $21.00 | - | $168.00 |
💡 省钱技巧:使用 批处理 (Batch) 或 Flex 定价可享受标准费率 50% 的优惠;急需低延迟可选择 优先处理 (Priority)(2 倍费率)。
安全与监控
- 思维链可控性:研究发现 GPT-5.4 Thinking 难以故意混淆其推理过程,这意味着安全团队可以更有效地监控其思维链,防止模型隐藏恶意意图。
- 高风险拦截:针对零数据保留客户的高风险网络请求,实施了异步拦截机制,平衡了隐私与安全。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















