OpenAI 发布 GPT-5.4:原生“计算机使用”能力觉醒,智能体正式接管复杂工作流

“它不再只是陪你聊天的机器人,而是能真正操作你电脑、编写并调试代码、处理复杂报表的数字员工。”

OpenAI 正式推出 GPT-5.4,这是 GPT-5 系列中迄今为止最强大的通用模型。它不仅继承了 GPT-5.3-Codex 的顶尖编码能力,更首次引入了原生计算机使用(Native Computer Use)功能,标志着 AI 从“文本生成者”向“任务执行者”的根本性跨越。

  • 官方介绍:https://openai.com/index/introducing-gpt-5-4

GPT-5.4 现已集成至 ChatGPTCodex 及 API 平台,旨在成为开发者、企业及专业人士构建自主智能体(Agentic Workflows)的核心引擎。

OpenAI 发布 GPT-5.4:原生“计算机使用”能力觉醒,智能体正式接管复杂工作流

核心突破:三大维度全面进化

1. 原生计算机使用:像人类一样操作屏幕

这是 GPT-5.4 最具革命性的升级。模型现在具备视觉感知 + 鼠标键盘控制的双重能力:

  • 跨应用操作:能够理解屏幕截图,通过 Playwright 等库或直接模拟键鼠操作,在浏览器、Excel、PPT 等不同软件间无缝切换并完成任务。
  • 超越人类的表现:在 OSWorld-Verified 基准测试中,GPT-5.4 以 75.0% 的成功率超越了人类平均水平(72.4%),远超 GPT-5.2 的 47.3%。
  • 高分辨率支持:引入“原始(Raw)”图像输入模式,支持高达 1024 万像素 的完整保真度感知,确保在复杂 UI 界面中的点击精准无误。

2. 编码与工程能力的终极融合

GPT-5.4 将 GPT-5.3-Codex 的强悍基因融入通用模型:

  • 项目级上下文:支持高达 100 万 Token 的上下文窗口(实验性),使智能体能理解整个代码库,进行跨文件的调试、重构和功能开发。
  • 可视化调试:新增实验性技能 "Playwright (Interactive)",Codex 可以在构建 Web 应用的同时,实时运行测试、截图验证并自动修复 Bug。
  • 速度与效率:开启“快速模式”后,Token 生成速度提升 1.5 倍,且作为目前 Token 效率最高的推理模型,它在解决同等问题时消耗的 Token 显著少于 GPT-5.2。

3. 知识工作与多模态推理

专为专业人士打造的“超级大脑”:

  • Office 三件套大师:在内部测试中,GPT-5.4 生成的 Excel 建模任务得分高达 87.3%(GPT-5.2 仅 68.4%),生成的 PPT 在美学和内容上更受人类评分者青睐。
  • 事实准确性提升:单个声明的错误率降低 33%,完整响应包含错误的概率降低 18%,是目前最“诚实”的 GPT 模型。
  • 深度网络研究:在 BrowseComp 基准测试中,成功率跃升至 82.7%(GPT-5.4 Pro 达 89.3%),擅长从海量网页中提取“大海捞针”式的信息并综合成报告。
OpenAI 发布 GPT-5.4:原生“计算机使用”能力觉醒,智能体正式接管复杂工作流

架构革新:工具搜索与可引导性

智能工具搜索 (Tool Search)

面对成千上万个 API 或 MCP 工具,GPT-5.4 不再需要将所有定义塞入提示词:

  • 按需加载:模型拥有一个轻量级工具列表,仅在需要时动态查找并加载具体工具定义。
  • 降本增效:在 Scale MCP Atlas 基准测试中,该方法在保持准确率不变的情况下,将 Token 用量减少了 47%,大幅降低了长工作流的成本。

可引导的思维链 (Guidable Thinking)

在 ChatGPT 中,GPT-5.4 Thinking 模式引入了前置计划功能:

  • 中途干预:模型会在开始工作前概述计划,用户可在其执行过程中随时插入指令调整方向,无需重新开始对话。
  • 长程记忆:即使经过长时间的思考和多步操作,模型仍能牢牢记住初始目标,确保输出不偏离轨道。

性能基准:全方位碾压前代

评估维度基准测试GPT-5.4GPT-5.3-CodexGPT-5.2人类表现
知识工作GDPval (专业任务)83.0%70.9%70.9%-
编码能力SWE-Bench Pro57.7%56.8%55.6%-
计算机操作OSWorld-Verified75.0%74.0%*47.3%72.4%
工具使用Toolathlon54.6%51.9%46.3%-
网络搜索BrowseComp82.7%77.3%65.8%-
抽象推理ARC-AGI-273.3%-52.9%-

(注:GPT-5.3-Codex 在新参数下得分为 74.0%)

可用性与定价策略

上线计划

  • ChatGPT:即日起向 Plus、Team、Pro 用户开放 GPT-5.4 ThinkingPro 和企业用户 可使用 GPT-5.4 Pro
  • APIgpt-5.4 和 gpt-5.4-pro 模型已上线。
  • Codex:集成 GPT-5.4,支持 100 万上下文窗口实验。
  • 退役通知:GPT-5.2 Thinking 将于 2026 年 6 月 5 日退役。

API 定价 (每百万 Token)

虽然单价略有上涨,但凭借更高的 Token 效率,实际任务成本可能更低。

模型输入价格缓存输入输出价格
gpt-5.4$2.50$0.25$15.00
gpt-5.2$1.75$0.175$14.00
gpt-5.4-pro$30.00-$180.00
gpt-5.2-pro$21.00-$168.00

💡 省钱技巧:使用 批处理 (Batch) 或 Flex 定价可享受标准费率 50% 的优惠;急需低延迟可选择 优先处理 (Priority)(2 倍费率)。

安全与监控

  • 思维链可控性:研究发现 GPT-5.4 Thinking 难以故意混淆其推理过程,这意味着安全团队可以更有效地监控其思维链,防止模型隐藏恶意意图。
  • 高风险拦截:针对零数据保留客户的高风险网络请求,实施了异步拦截机制,平衡了隐私与安全。
© 版权声明

相关文章

暂无评论

none
暂无评论...