OpenAI 发布 Codex 与语音代理重大更新,为开发者提供更强工具支持

早报6个月前发布 小马良
129 0

OpenAI 不仅致力于提升普通用户对 AI 的体验,也在持续强化其面向开发者的平台能力。作为全球领先的 AI 开发平台之一,OpenAI 凭借其先进的模型和完善的工具链,赢得了大量开发者的青睐。

今天,OpenAI 宣布了两项针对开发者的重要更新:

  1. Codex 功能升级
  2. 语音代理(Voice Agent)及 SDK 增强

这些更新将进一步提升 AI 编程助手的能力,并为构建语音驱动的智能代理提供更多灵活性和控制力。

Codex 更新:开放给 ChatGPT Plus 用户,新增互联网访问与语音输入功能

OpenAI 正式将 Codex  ChatGPT Plus 用户开放,并提供了更宽松的使用限制(尽管在高需求时段仍可能受到速率限制)。

✅ 新增互联网访问能力

Codex 现已支持连接互联网,用于执行以下任务:

  • 安装依赖项
  • 升级软件包
  • 运行需要外部资源的测试

这一功能默认关闭,但用户可在特定环境中手动启用,并自定义允许访问的域名。此功能目前适用于 Plus、Pro 和 Teams 用户,未来将扩展至企业用户。

✅ 支持拉取请求(Pull Request)更新与语音口述任务

此次更新还带来了以下改进:

  • 用户现在可以更新现有 Pull Request,让 Codex 更好地参与代码协作流程。
  • Codex 首次支持语音输入,开发者可通过语音口述任务指令,提升交互效率。

✅ 其他增强功能

此外,OpenAI 对 Codex 做出多项优化:

  • 新增二进制文件支持:补丁应用时支持所有文件操作;拉取请求中支持删除或重命名二进制文件。
  • 改进设置脚本错误提示,提升调试体验。
  • 任务差异(diffs)大小上限从 1MB 提升至 5MB
  • 设置脚本运行时间从 5 分钟延长至 10 分钟
  • GitHub 连接流程优化
  • 重新启用 Live Activities 功能(解决 iOS 上的通知遗漏问题)
  • 取消 SSO 或社交登录用户的强制双重验证要求

语音代理更新:SDK 支持 TypeScript,推出新版音频模型与追踪仪表板

除了 Codex,OpenAI 也对其语音代理系统进行了多项关键更新。

✅ Agents SDK 支持 TypeScript

最新版 Agents SDK 已支持 TypeScript,并引入以下核心功能:

  • 支持手动切换模式
  • 内置安全防护机制
  • 支持追踪代理行为
  • 支持**MCP(多控制器协议)**等代理原语
  • 新增人工审批机制:开发者可暂停工具调用、序列化并保存代理状态、批准或拒绝特定动作,并继续执行

这项更新使开发者能更精细地控制代理的行为,同时提高安全性与可控性。

✅ 新版语音到语音模型上线

OpenAI 推出了更新后的语音模型,提升了以下方面:

  • 指令遵循可靠性
  • 工具调用一致性
  • 中断响应行为

此外,开发者现在还可以自定义语音语速,实现更个性化的语音输出。

该模型可通过以下 API 使用:

  • Realtime API 中的 gpt-4o-realtime-preview-2025-06-03
  • Chat Completions API 中的 gpt-4o-audio-preview-2025-06-03

✅ Traces 仪表板新增 Realtime API 支持

Traces 是一个用于可视化代理行为的仪表板。此次更新后,它正式支持 Realtime API 会话,帮助开发者清晰查看以下信息:

  • 音频输入/输出
  • 工具调用过程
  • 中断事件发生点

这大大增强了调试和分析语音代理运行状态的能力。

© 版权声明

相关文章

暂无评论

none
暂无评论...