亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

早报1周前更新 小马良
45 0

周二,亚马逊推出了一款全新的生成式AI语音模型——Nova Sonic。这款模型能够原生处理语音并生成自然流畅的语音,标志着亚马逊在AI语音技术上的重大突破。

亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

Nova Sonic的核心优势

1. 自然流畅的语音交互

Nova Sonic的设计目标是提供自然流畅的语音交互体验。与传统的语音助手(如早期的Alexa和苹果的Siri)相比,Nova Sonic的对话体验更加自然,能够更好地理解用户的意图,即使在用户含糊不清、口误或处于嘈杂环境中,也能准确识别和响应。

2. 强大的语音识别能力

亚马逊声称,Nova Sonic在语音识别方面表现出色。在跨语言和方言的语音识别基准测试Multilingual LibriSpeech中,Nova Sonic在英语、法语、意大利语、德语和西班牙语上的平均词错率(WER)仅为4.2%。这意味着在这些语言中,模型每100个单词中大约只有4个与人工转录不同。此外,在测量多人嘈杂交互的基准测试Augmented Multi Party Interaction中,Nova Sonic的词错率比OpenAI的GPT-4o-transcribe模型低46.7%。

3. 高效的对话管理

Nova Sonic在双向对话中表现出色,能够“在适当的时机”等待发言,考虑说话者的停顿和打断。它还能为用户语音生成文本记录,供开发者用于各种应用。这种高效的对话管理能力使得Nova Sonic在处理复杂对话场景时更加得心应手。

4. 行业领先的速度

Nova Sonic的平均感知延迟仅为1.09秒,比OpenAI的GPT-4o模型(响应时间为1.18秒)更快。这种高效的速度使得Nova Sonic在实时交互中能够提供更流畅的用户体验。

亚马逊的战略布局

Nova Sonic的推出是亚马逊对新兴AI语音模型的回应,也是其构建通用人工智能(AGI)战略的一部分。亚马逊高级副总裁兼AGI首席科学家Rohit Prasad表示,Nova Sonic的部分组件已经在支持Alexa+(亚马逊升级版数字语音助手)中发挥作用。Prasad还透露,Nova Sonic建立在亚马逊在“大型协调系统”方面的专长之上,这是构成Alexa的技术框架。

亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

开发者平台Bedrock的支持

Nova Sonic通过亚马逊的开发者平台Bedrock提供,该平台用于构建企业级AI应用,支持全新的双向流式API。亚马逊声称Nova Sonic是“市场上最具成本效益”的AI语音模型,比OpenAI的GPT-4o便宜约80%。这一优势使得Nova Sonic在企业级应用中更具竞争力。

未来展望

Prasad表示,Nova Sonic是亚马逊构建AGI更广泛战略的一部分,公司将其定义为“能在计算机上完成人类所能做的任何事情的AI系统”。展望未来,亚马逊计划发布更多能够理解不同模态的AI模型,包括图像、视频和语音,以及“将事物带入物理世界时相关的其他感官数据”。

© 版权声明

相关文章

暂无评论

none
暂无评论...