ChatGPT 高级语音模式重磅升级:声音更自然,新增实时翻译功能

早报6个月前发布 小马良
199 0

OpenAI 近日对 ChatGPT高级语音模式(Advanced Voice Mode)进行了重大更新,进一步拉近了 AI 与人类对话之间的距离。此次升级不仅让语音输出更加自然、富有情感,还新增了多语言实时翻译功能,标志着语音交互体验迈向新高度。

更像“人”的语音交互体验

早在去年 GPT-4o 发布时,OpenAI 就引入了高级语音模式,利用原生多模态模型(如 GPT-4o),实现接近实时的音频响应。其平均响应时间约为 320 毫秒,在理想条件下最快可达 232 毫秒,已接近人类在日常对话中的反应速度。

该模式不仅能生成语音,还能捕捉非语言线索,例如语速、停顿、重音变化,并作出带有情感色彩的回应,使整个对话更加自然流畅。

在今年早些时候的一次小更新中,OpenAI 已经优化了语音中断问题并改善了口音表现。而本次更新则在此基础上更进一步:

  • 语调更细腻:语音更具层次感,听起来更像是真人表达。
  • 节奏更真实:包括自然的停顿、语气转折和重音强调。
  • 情感识别增强:能够更准确地表达共情、讽刺等复杂情绪。

新增多语言实时翻译功能

此次更新最引人注目的新功能之一是语音翻译支持。用户只需简单指令,即可让 ChatGPT 在对话过程中持续进行跨语言翻译,直到收到“停止”命令为止。

这一功能的应用场景非常广泛,包括:

  • 跨语言会议或访谈;
  • 外语学习辅助;
  • 国际旅行中的即时沟通。

OpenAI 表示,这项更新有望取代部分专用语音翻译应用,为用户提供一个更智能、更集成的解决方案。

使用限制与改进方向

尽管这次更新带来了显著提升,OpenAI 也坦承仍存在一些技术限制:

  • 音频质量波动:某些语音选项下可能出现音调不稳定或音高异常变化。
  • 偶发“幻听”现象:极少数情况下会生成意外的声音,如背景音乐、广告片段或无意义语句。

这些问题将随着后续迭代逐步优化,OpenAI 承诺将持续提升音频一致性和稳定性。

目前仅向付费用户开放

需要注意的是,新版高级语音模式目前仅面向 ChatGPT Plus、Team 和 Enterprise 用户开放。普通用户暂时无法体验全部功能。

© 版权声明

相关文章

暂无评论

none
暂无评论...