英伟达开源多语言语音识别和翻译模型:Canary 1B Flash 和 Canary 180M Flash

在促进全球交流的进程中,多语言语音识别和翻译技术扮演着至关重要的角色。然而,开发能够实时准确地转录和翻译多种语言的模型面临着诸如处理语言细微差别、确保高准确性与低延迟以及实现跨设备高效部署等挑战。为应对这些挑战,英伟达最近开源了两款专门设计用于多语言语音识别和翻译的模型:Canary 1B FlashCanary 180M Flash

英伟达开源多语言语音识别和翻译模型:Canary 1B Flash 和 Canary 180M Flash

技术亮点

这两款模型均采用编码器-解码器架构,其中编码器基于FastConformer,以高效处理音频特征;而Transformer解码器则负责生成文本。它们支持包括英语、德语、法语和西班牙语在内的多种语言,并通过特定的任务标记指导输出,如<目标语言>、<任务>等。Canary 1B Flash拥有32个编码器层和4个解码器层,参数总量达到8.83亿;Canary 180M Flash则包含17个编码器层和4个解码器层,总参数量为1.82亿。

性能表现

  • Canary 1B Flash:在开放ASR排行榜数据集上实现了超过1000 RTFx的推理速度,适用于实时处理。它在Librispeech Clean数据集上的词错率(WER)为1.48%,在Librispeech Other数据集上为2.87%。对于多语言ASR任务,在MLS测试集中,德语的WER为4.36%,西班牙语为2.69%,法语为4.47%。在自动语音翻译(AST)任务中,它在FLEURS测试集上的BLEU得分分别为:英语到德语32.27,英语到西班牙语22.6,英语到法语41.22。
  • Canary 180M Flash:同样表现出色,推理速度超过1200 RTFx。其在Librispeech Clean数据集上的WER为1.87%,在Librispeech Other数据集上为3.83%。在MLS测试集中,德语的WER为4.81%,西班牙语为3.17%,法语为4.75%。在AST任务中,它在FLEURS测试集上的BLEU得分分别为:英语到德语28.18,英语到西班牙语20.47,英语到法语36.66。

应用前景

这两个模型不仅支持词级和段级时间戳功能,提升了在需要音频与文本精确对齐应用中的实用性,而且由于其紧凑的设计,非常适合设备端部署,减少对云服务的依赖并支持离线处理。此外,它们的稳健性有助于减少翻译任务中的幻觉现象,确保更可靠的输出结果。

开源许可

Canary 1B Flash和Canary 180M Flash在宽松的CC-BY-4.0许可下发布,这意味着它们可以被用于商业用途,鼓励AI社区内的创新和发展。这对于希望利用这些先进技术构建更具包容性和效率通信工具的开发者和组织来说是一个巨大的机会。

© 版权声明

相关文章

暂无评论

none
暂无评论...