OpenAI 近日对 ChatGPT 的高级语音模式(Advanced Voice Mode)进行了重大更新,进一步拉近了 AI 与人类对话之间的距离。此次升级不仅让语音输出更加自然、富有情感,还新增了多语言实时翻译功能,标志着语音交互体验迈向新高度。

更像“人”的语音交互体验
早在去年 GPT-4o 发布时,OpenAI 就引入了高级语音模式,利用原生多模态模型(如 GPT-4o),实现接近实时的音频响应。其平均响应时间约为 320 毫秒,在理想条件下最快可达 232 毫秒,已接近人类在日常对话中的反应速度。
该模式不仅能生成语音,还能捕捉非语言线索,例如语速、停顿、重音变化,并作出带有情感色彩的回应,使整个对话更加自然流畅。
在今年早些时候的一次小更新中,OpenAI 已经优化了语音中断问题并改善了口音表现。而本次更新则在此基础上更进一步:
- 语调更细腻:语音更具层次感,听起来更像是真人表达。
- 节奏更真实:包括自然的停顿、语气转折和重音强调。
- 情感识别增强:能够更准确地表达共情、讽刺等复杂情绪。
新增多语言实时翻译功能
此次更新最引人注目的新功能之一是语音翻译支持。用户只需简单指令,即可让 ChatGPT 在对话过程中持续进行跨语言翻译,直到收到“停止”命令为止。
这一功能的应用场景非常广泛,包括:
- 跨语言会议或访谈;
- 外语学习辅助;
- 国际旅行中的即时沟通。
OpenAI 表示,这项更新有望取代部分专用语音翻译应用,为用户提供一个更智能、更集成的解决方案。
使用限制与改进方向
尽管这次更新带来了显著提升,OpenAI 也坦承仍存在一些技术限制:
- 音频质量波动:某些语音选项下可能出现音调不稳定或音高异常变化。
- 偶发“幻听”现象:极少数情况下会生成意外的声音,如背景音乐、广告片段或无意义语句。
这些问题将随着后续迭代逐步优化,OpenAI 承诺将持续提升音频一致性和稳定性。
目前仅向付费用户开放
需要注意的是,新版高级语音模式目前仅面向 ChatGPT Plus、Team 和 Enterprise 用户开放。普通用户暂时无法体验全部功能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















