香港科技大学、SparkAudio开源社区、上海出门问问信息技术有限公司、上海交通大学、南洋理工大学、西北工业大学和网易伏羲人工智能实验室的研究人员推出Spark-TTS,这是一个基于大语言模型(LLM)的高效文本到语音(Text-to-Speech, TTS)系统。它通过引入一种单流解耦语音编码器(BiCodec),将语音分解为两种互补的标记类型:用于语言内容的低比特率语义标记和用于说话者属性的固定长度全局标记。这种解耦表示结合了Qwen2.5 LLM和链式思维(Chain-of-Thought, CoT)生成方法,能够实现从粗粒度(如性别、说话风格)到细粒度(如精确音高值、说话速率)的语音控制。
- 项目主页:https://sparkaudio.github.io/spark-tts
- GitHub:https://github.com/SparkAudio/Spark-TTS
- 模型:https://huggingface.co/SparkAudio/Spark-TTS-0.5B
传统的TTS系统通常依赖于多阶段处理或复杂的架构来预测多个码本,这限制了效率和灵活性。例如,一些系统需要先通过一个模型生成语义标记,再通过另一个模型生成声学特征。Spark-TTS则通过BiCodec将语音内容和说话者属性解耦,直接从文本生成语音,简化了流程。

主要功能
- 零样本文本到语音合成(Zero-shot TTS):能够从未见过的文本生成自然语音,无需针对特定说话者进行额外训练。
- 可定制语音生成:通过输入属性标签(如性别、音高、语速)或细粒度属性值,生成具有特定特征的语音。
- 高效语音编码:BiCodec通过语义标记和全局标记的结合,实现了高效的语音压缩和高质量的语音重建。
主要特点
- 单流语音编码:BiCodec将语音分解为语义标记和全局标记,简化了语音生成流程。
- 链式思维生成:通过CoT方法,模型能够逐步生成语音标记,支持复杂的语音属性控制。
- 高质量语音重建:BiCodec在低比特率下实现了高质量的语音重建,超越了其他同类编码器。
- 开放数据集VoxBox:为研究提供了一个包含10万小时语音数据的标注数据集,支持可重复的研究和公平的比较。
工作原理
Spark-TTS的工作原理可以分为以下几个关键步骤:
- 语音编码:BiCodec将输入语音分解为语义标记和全局标记。语义标记捕捉语言内容,而全局标记编码说话者属性和其他全局语音特征。
- 标记生成:基于Qwen2.5 LLM,模型通过CoT方法生成语音标记。如果输入包含属性标签,模型将生成对应的细粒度属性值、全局标记和语义标记。
- 语音解码:BiCodec的解码器将生成的标记重建为语音波形。
应用场景
- 智能语音助手:为智能设备提供自然语音交互,支持多种语言和说话风格。
- 有声读物:将文本内容转换为自然语音,为用户提供个性化的听觉体验。
- 语音合成服务:为企业提供定制化的语音合成解决方案,支持多种应用场景,如语音播报、语音导航等。
- 内容创作:帮助创作者快速生成高质量的语音内容,支持多种语言和风格。
总之,Spark-TTS通过简化语音生成流程、提供灵活的语音控制能力和高质量的语音重建,为TTS领域提供了一种高效且强大的解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...