OpenAI 发布 GPT-5.4：原生“计算机使用”能力觉醒，智能体正式接管复杂工作流

19 0

“它不再只是陪你聊天的机器人，而是能真正操作你电脑、编写并调试代码、处理复杂报表的数字员工。”

OpenAI 正式推出 GPT-5.4，这是 GPT-5 系列中迄今为止最强大的通用模型。它不仅继承了 GPT-5.3-Codex 的顶尖编码能力，更首次引入了原生计算机使用（Native Computer Use）功能，标志着 AI 从“文本生成者”向“任务执行者”的根本性跨越。

GPT-5.4 现已集成至 ChatGPT、Codex 及 API 平台，旨在成为开发者、企业及专业人士构建自主智能体（Agentic Workflows）的核心引擎。

这是 GPT-5.4 最具革命性的升级。模型现在具备视觉感知 + 鼠标键盘控制的双重能力：

跨应用操作：能够理解屏幕截图，通过 Playwright 等库或直接模拟键鼠操作，在浏览器、Excel、PPT 等不同软件间无缝切换并完成任务。
超越人类的表现：在 OSWorld-Verified 基准测试中，GPT-5.4 以 75.0% 的成功率超越了人类平均水平（72.4%），远超 GPT-5.2 的 47.3%。
高分辨率支持：引入“原始（Raw）”图像输入模式，支持高达 1024 万像素 的完整保真度感知，确保在复杂 UI 界面中的点击精准无误。

GPT-5.4 将 GPT-5.3-Codex 的强悍基因融入通用模型：

项目级上下文：支持高达 100 万 Token 的上下文窗口（实验性），使智能体能理解整个代码库，进行跨文件的调试、重构和功能开发。
可视化调试：新增实验性技能 "Playwright (Interactive)"，Codex 可以在构建 Web 应用的同时，实时运行测试、截图验证并自动修复 Bug。
速度与效率：开启“快速模式”后，Token 生成速度提升 1.5 倍，且作为目前 Token 效率最高的推理模型，它在解决同等问题时消耗的 Token 显著少于 GPT-5.2。

专为专业人士打造的“超级大脑”：

Office 三件套大师：在内部测试中，GPT-5.4 生成的 Excel 建模任务得分高达 87.3%（GPT-5.2 仅 68.4%），生成的 PPT 在美学和内容上更受人类评分者青睐。
事实准确性提升：单个声明的错误率降低 33%，完整响应包含错误的概率降低 18%，是目前最“诚实”的 GPT 模型。
深度网络研究：在 BrowseComp 基准测试中，成功率跃升至 82.7%（GPT-5.4 Pro 达 89.3%），擅长从海量网页中提取“大海捞针”式的信息并综合成报告。

面对成千上万个 API 或 MCP 工具，GPT-5.4 不再需要将所有定义塞入提示词：

按需加载：模型拥有一个轻量级工具列表，仅在需要时动态查找并加载具体工具定义。
降本增效：在 Scale MCP Atlas 基准测试中，该方法在保持准确率不变的情况下，将 Token 用量减少了 47%，大幅降低了长工作流的成本。

在 ChatGPT 中，GPT-5.4 Thinking 模式引入了前置计划功能：

评估维度	基准测试	GPT-5.4	GPT-5.3-Codex	GPT-5.2	人类表现
知识工作	GDPval (专业任务)	83.0%	70.9%	70.9%	-
编码能力	SWE-Bench Pro	57.7%	56.8%	55.6%	-
计算机操作	OSWorld-Verified	75.0%	74.0%*	47.3%	72.4%
工具使用	Toolathlon	54.6%	51.9%	46.3%	-
网络搜索	BrowseComp	82.7%	77.3%	65.8%	-
抽象推理	ARC-AGI-2	73.3%	-	52.9%	-

(注：GPT-5.3-Codex 在新参数下得分为 74.0%)

ChatGPT：即日起向 Plus、Team、Pro 用户开放 GPT-5.4 Thinking；Pro 和企业用户 可使用 GPT-5.4 Pro。
API：gpt-5.4 和 gpt-5.4-pro 模型已上线。
Codex：集成 GPT-5.4，支持 100 万上下文窗口实验。
退役通知：GPT-5.2 Thinking 将于 2026 年 6 月 5 日退役。