OpenAI 发布 Codex 与语音代理重大更新，为开发者提供更强工具支持

早报9个月前发布小马良

134 0

OpenAI 不仅致力于提升普通用户对 AI 的体验，也在持续强化其面向开发者的平台能力。作为全球领先的 AI 开发平台之一，OpenAI 凭借其先进的模型和完善的工具链，赢得了大量开发者的青睐。

今天，OpenAI 宣布了两项针对开发者的重要更新：

Codex 功能升级
语音代理（Voice Agent）及 SDK 增强

这些更新将进一步提升 AI 编程助手的能力，并为构建语音驱动的智能代理提供更多灵活性和控制力。

Codex 更新：开放给 ChatGPT Plus 用户，新增互联网访问与语音输入功能

OpenAI 正式将 Codex 向 ChatGPT Plus 用户开放，并提供了更宽松的使用限制（尽管在高需求时段仍可能受到速率限制）。

✅ 新增互联网访问能力

Codex 现已支持连接互联网，用于执行以下任务：

安装依赖项
升级软件包
运行需要外部资源的测试

这一功能默认关闭，但用户可在特定环境中手动启用，并自定义允许访问的域名。此功能目前适用于 Plus、Pro 和 Teams 用户，未来将扩展至企业用户。

✅ 支持拉取请求（Pull Request）更新与语音口述任务

此次更新还带来了以下改进：

用户现在可以更新现有 Pull Request，让 Codex 更好地参与代码协作流程。
Codex 首次支持语音输入，开发者可通过语音口述任务指令，提升交互效率。

✅ 其他增强功能

此外，OpenAI 对 Codex 做出多项优化：

新增二进制文件支持：补丁应用时支持所有文件操作；拉取请求中支持删除或重命名二进制文件。
改进设置脚本错误提示，提升调试体验。
任务差异（diffs）大小上限从 1MB 提升至 5MB
设置脚本运行时间从 5 分钟延长至 10 分钟
GitHub 连接流程优化
重新启用 Live Activities 功能（解决 iOS 上的通知遗漏问题）
取消 SSO 或社交登录用户的强制双重验证要求

语音代理更新：SDK 支持 TypeScript，推出新版音频模型与追踪仪表板

除了 Codex，OpenAI 也对其语音代理系统进行了多项关键更新。

✅ Agents SDK 支持 TypeScript

最新版 Agents SDK 已支持 TypeScript，并引入以下核心功能：

支持手动切换模式
内置安全防护机制
支持追踪代理行为
支持**MCP（多控制器协议）**等代理原语
新增人工审批机制：开发者可暂停工具调用、序列化并保存代理状态、批准或拒绝特定动作，并继续执行

这项更新使开发者能更精细地控制代理的行为，同时提高安全性与可控性。

✅ 新版语音到语音模型上线

OpenAI 推出了更新后的语音模型，提升了以下方面：

指令遵循可靠性
工具调用一致性
中断响应行为

此外，开发者现在还可以自定义语音语速，实现更个性化的语音输出。

该模型可通过以下 API 使用：

Realtime API 中的 gpt-4o-realtime-preview-2025-06-03
Chat Completions API 中的 gpt-4o-audio-preview-2025-06-03

✅ Traces 仪表板新增 Realtime API 支持

Traces 是一个用于可视化代理行为的仪表板。此次更新后，它正式支持 Realtime API 会话，帮助开发者清晰查看以下信息：

音频输入/输出
工具调用过程
中断事件发生点

这大大增强了调试和分析语音代理运行状态的能力。

早报 # Codex # OpenAI # 语音代理

文章版权归作者所有，未经允许请勿转载。

谷歌正在测试Gem分享功能，Gemini用户或将很快能共享自定义Gem

早报 # Gem # Gemini # 谷歌

10个月前

04690

ChatGPT 新增会议记录与多云服务连接功能，OpenAI 加速企业市场布局

早报 # ChatGPT # OpenAI

9个月前

01300

OpenAI 最新研究揭示：AI 会“故意撒谎”，但问题比你想的更复杂

科普 # OpenAI

6个月前

01150

谷歌正在测试 Gemini Enterprise 的 Agentspace Live 功能

早报 # Agentspace Live # Gemini Enterprise # 谷歌

4个月前

0320

暂无评论

暂无评论...

OpenAI 发布 Codex 与语音代理重大更新，为开发者提供更强工具支持