亚马逊发布全新AI语音模型Nova Sonic：能够原生处理语音并生成自然流畅的语音

190 0

周二，亚马逊推出了一款全新的生成式AI语音模型——Nova Sonic。这款模型能够原生处理语音并生成自然流畅的语音，标志着亚马逊在AI语音技术上的重大突破。

地址：https://aws.amazon.com/ai/generative-ai/nova

Nova Sonic的核心优势

1. 自然流畅的语音交互

Nova Sonic的设计目标是提供自然流畅的语音交互体验。与传统的语音助手（如早期的Alexa和苹果的Siri）相比，Nova Sonic的对话体验更加自然，能够更好地理解用户的意图，即使在用户含糊不清、口误或处于嘈杂环境中，也能准确识别和响应。

2. 强大的语音识别能力

亚马逊声称，Nova Sonic在语音识别方面表现出色。在跨语言和方言的语音识别基准测试Multilingual LibriSpeech中，Nova Sonic在英语、法语、意大利语、德语和西班牙语上的平均词错率（WER）仅为4.2%。这意味着在这些语言中，模型每100个单词中大约只有4个与人工转录不同。此外，在测量多人嘈杂交互的基准测试Augmented Multi Party Interaction中，Nova Sonic的词错率比OpenAI的GPT-4o-transcribe模型低46.7%。

3. 高效的对话管理

Nova Sonic在双向对话中表现出色，能够“在适当的时机”等待发言，考虑说话者的停顿和打断。它还能为用户语音生成文本记录，供开发者用于各种应用。这种高效的对话管理能力使得Nova Sonic在处理复杂对话场景时更加得心应手。

4. 行业领先的速度

Nova Sonic的平均感知延迟仅为1.09秒，比OpenAI的GPT-4o模型（响应时间为1.18秒）更快。这种高效的速度使得Nova Sonic在实时交互中能够提供更流畅的用户体验。

亚马逊的战略布局

Nova Sonic的推出是亚马逊对新兴AI语音模型的回应，也是其构建通用人工智能（AGI）战略的一部分。亚马逊高级副总裁兼AGI首席科学家Rohit Prasad表示，Nova Sonic的部分组件已经在支持Alexa+（亚马逊升级版数字语音助手）中发挥作用。Prasad还透露，Nova Sonic建立在亚马逊在“大型协调系统”方面的专长之上，这是构成Alexa的技术框架。