通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能

阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 CosyVoice 2。该模型通过一系列优化和创新,显著提升了多语言语音合成的质量、响应速度和实时性能。CosyVoice 2 集成了离散语音标记、有限标量量化、简化文本-语音语言模型架构以及块感知的因果流匹配模型,旨在提供高效、灵活且适用于多种合成场景的语音合成解决方案。CosyVoice 是一个语音生成模型,能够生成自然声音,并控制多种语言、音色、说话风格和说话者身份。它在多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟随能力方面表现出色。

CosyVoice 2在前作CosyVoice的基础上进行了改进,提供了更高的自然度、内容一致性和说话者相似性,同时在流式模式下具有最小的响应延迟和几乎无损的合成质量。例如,我们需要将一段文本“今天天气真好,适合出去郊游”转换成语音,CosyVoice 2可以直接处理这个任务,并且能够根据文本内容生成流畅、自然的语音输出。如果这段文本是在一个实时聊天应用中输入的,CosyVoice 2能够在用户输入文本的同时,即时生成语音,提供近乎实时的反馈。

主要功能

  1. 流式语音合成:支持在文本输入过程中实时生成语音,而不是等待整个文本输入完成。
  2. 多语言支持:虽然主要针对中文和英文,但CosyVoice 2也展示了对日语和韩语的支持。
  3. 指令性语音合成:能够根据自然语言指令或细粒度指令生成具有特定情感、语速、方言和角色风格的语音。
  4. 多说话者微调:可以在多个说话者的数据上进行微调,以提高特定说话者的合成质量。

主要特点

  1. 统一框架:CosyVoice 2将流式和非流式合成统一在一个框架内,提供了灵活的部署选项。
  2. 预训练LLMs:使用预训练的文本大型语言模型作为文本-语音语言模型的骨干网络,增强了上下文理解能力。
  3. 有限标量量化(FSQ):改进了语音标记器的码本利用率,并捕获了更多的语音信息。
  4. 块感知因果流匹配模型:支持多种合成场景,包括流式和非流式合成。

    主要改进

    有限标量量化

    • 功能:引入了有限标量量化(Finite Scalar Quantization, FSQ),以提高语音标记的码本利用率。
    • 优势:FSQ 通过减少冗余信息,提高了模型的编码效率,使得语音标记更加紧凑,同时保持了高质量的合成效果。

    简化文本-语音语言模型架构

    • 功能:简化了文本-语音语言模型的架构,使得预训练的多模态大语言模型(LLMs)可以直接用作骨干模型。
    • 优势:这种简化不仅减少了模型的复杂度,还提高了推理速度,使得模型可以在更广泛的设备上运行,包括资源受限的环境。

    块感知的因果流匹配模型

    • 功能:设计了一个块感知的因果流匹配模型(Block-Aware Causal Flow Matching, BACFM),以适应不同的合成场景。
    • 优势:BACFM 允许模型在单个框架中执行流式和非流式合成,提供了更高的灵活性和适应性。它能够根据输入的长度和上下文动态调整生成策略,确保合成的音频在不同场景下都能保持高质量。

    超低延迟

    • 功能:引入了大规模语音生成模型技术,集成了离线和流式建模,支持双向流式语音合成。
    • 优势:首个数据包的合成延迟可达 150 毫秒,且质量损失最小。这使得 CosyVoice 2 在实时交互应用中表现出色,如智能助手、虚拟主播等。

    高准确性

    • 功能:与 CosyVoice 1.0 相比,CosyVoice 2.0 将合成音频中的发音错误减少了 30% 至 50%。
    • 优势:在 Seed-TTS 评估集的硬测试集上,CosyVoice 2 实现了当前最低的字符错误率,确保了更高的语音合成准确性。

    强稳定性

    • 功能:确保了零样本语音生成和跨语言语音合成中音色的出色一致性。
    • 优势:与 1.0 版本相比,CosyVoice 2 在跨语言合成方面显示出显著改进,能够在不同语言之间保持一致的音色和韵律,增强了多语言应用的适用性。

    自然体验

    • 功能:合成音频在韵律、音质和情感对齐方面有了显著提升。
    • 优势:MOS(Mean Opinion Score)评估分数从 5.4 提高到 5.53,与商业化的大规模语音合成模型的 5.52 分相当。此外,CosyVoice 2 升级了其可控音频生成能力,支持更细粒度的情感控制和方言口音调整,使得合成的语音更加自然和个性化。

    工作原理

    CosyVoice 2的工作流程包括以下几个关键步骤:

    1. 文本标记化:使用基于BPE的文本标记器直接处理原始文本输入。
    2. 语音标记化:通过有限标量量化(FSQ)模块将语音信号编码成离散的语音标记。
    3. 文本-语音语言模型:使用预训练的LLMs基于文本提示自回归地生成语音标记。
    4. 流匹配模型:将语音标记转换为特定说话者的Mel频谱图,然后通过声码器将Mel频谱图转换为原始音频信号。
    0

    评论0

    没有账号?注册  忘记密码?