
OpenAI 宣布其 Realtime API 正式全面开放,并同步推出新一代语音模型 gpt-realtime——公司称其为“迄今为止最先进的语音到语音 AI 模型”。这一更新标志着 OpenAI 在实时交互式语音应用上的重大进展,也为开发者提供了更强大、更灵活的集成能力。

gpt-realtime 并非简单的语音合成或识别工具,而是一个端到端的音频处理系统:它直接接收语音输入、理解语义与语境,并以自然语音回应,全程无需转换为文本中转。这不仅降低了延迟,也让交互更接近真实对话。
gpt-realtime 的核心能力
1. 更自然的语音表现
- 支持情感语调、语气变化和口音调整(如“用法语口音说这句话”);
- 可在句子中途无缝切换语言,适应多语种交流场景;
- 新增两种高质量合成声音:Cedar(沉稳清晰)与 Marin(柔和自然);
- 现有八种声音也已完成音质优化,整体更流畅、更具表现力。
2. 理解非语言线索
模型能捕捉音频中的非语言信息,例如:
- 停顿、叹息、笑声、犹豫;
- 语速变化与情绪波动。
这些能力使 AI 能更准确判断用户意图。例如,在检测到用户困惑时主动提供解释,或在语气兴奋时给予积极回应。
3. 强化函数调用与上下文控制
- 函数调用(Function Calling)能力进一步优化,可更可靠地触发外部工具,如查询数据库、调用 CRM 系统或执行订单操作;
- 支持远程 模型上下文协议(MCP)服务器,允许开发者连接自定义服务或私有知识库,扩展模型能力边界。
4. 多模态输入支持
新增 图像输入功能,模型可结合视觉内容进行语音反馈。例如:
- 用户上传一张产品图,AI 可读取标签并回答“这是哪款手机?”;
- 展示一份菜单截图,AI 能推荐菜品并解释原因。
开发者可配置权限,确保敏感图像不被存储或滥用。
Realtime API 全面升级:面向企业与生产环境
此次 Realtime API 的全面上线,带来了多项关键功能更新,旨在提升可用性、兼容性与成本可控性:
| 功能 | 说明 |
|---|---|
| SIP 协议支持 | 可接入公共交换电话网络(PSTN)或企业电话系统,适用于客服中心、远程支持等场景 |
| 可重用提示(Reusable Prompts) | 开发者可预设常用系统指令模板,提升部署一致性 |
| 会话修剪与令牌限制 | 支持手动或自动裁剪上下文,控制 token 使用量,优化成本 |
| 缓存机制 | 高频重复内容可缓存,降低计算开销,输入缓存价格为每百万 token 0.40 美元 |
此外,API 已通过 Playground 和官方文档全面开放,便于开发者快速测试与集成。
性能提升:基准测试表现亮眼
OpenAI 提供了多项基准测试结果,展示 gpt-realtime 在复杂任务中的进步:
- Big Bench Audio:82.8% 准确率(前代为 65.6%)
- MultiChallenge:30.5%(衡量复杂指令遵循能力)
- ComplexFuncBench:66.5%(评估函数调用准确性)
这些数据表明,模型在真实业务场景中的稳定性与理解能力显著增强。
定价下调 20%,支持欧盟数据合规
为降低使用门槛,OpenAI 同步调整价格:
- 音频输入:每百万 token 32 美元(原价 40 美元)
- 音频输出:每百万 token 64 美元(原价 80 美元)
- 缓存输入:每百万 token 0.40 美元
同时,针对欧盟用户和隐私敏感型企业,OpenAI 支持将数据完全存储在欧盟境内,符合 GDPR 等严格合规要求。
应用场景:从客服到教育,正在落地
目前已有多个行业开始探索 gpt-realtime 的实际应用:
- T-Mobile:用于 AI 电话助手,帮助用户选择套餐,理解模糊表达;
- Zillow:构建语音驱动的房产搜索代理,通过对话缩小推荐范围;
- 教育平台:开发口语辅导工具,实时纠正发音并提供反馈。
这些案例显示,gpt-realtime 正在推动语音 AI 从“能说话”向“能办事”演进。
数据统计
相关导航


ListenHub

Gladia

Qwen3-ASR-Toolkit

Handy CLI

UniAPI

AI Speaker






