SoulX-Podcast：支持方言与副语言的真实感播客语音合成系统

语音模型3个月前发布小马良

76 0

西北工业大学、Soul AI 实验室与上海交通大学联合推出 SoulX-Podcast —— 一个专为长篇、多轮次、多说话者对话场景设计的语音合成系统。它不仅能生成高质量的播客风格对话语音，也在传统单说话者语音合成任务中表现优异。

项目主页：https://soul-ailab.github.io/soulx-podcast
GitHub：https://github.com/Soul-AILab/SoulX-Podcast
模型：https://huggingface.co/collections/Soul-AILab/soulx-podcast

与主流语音合成系统聚焦于单人独白不同，SoulX-Podcast 的核心目标是模拟真实播客中的自然对话：多人交替发言、语调随语境变化、夹杂笑声或叹息等副语言特征，并支持多种语言与方言。

SoulX-Podcast：支持方言与副语言的真实感播客语音合成系统

核心能力

多说话者对话生成
支持生成连贯的多轮次对话，每位说话者拥有稳定的声音特征，对话节奏自然，适用于播客、有声剧等场景。
多方言与多语言支持
除普通话和英语外，还支持四川话、河南话和粤语。系统可在无目标方言语音样本的情况下，通过文本提示生成对应方言语音（零样本跨方言克隆）。
副语言控制
可精确控制笑声、叹气、清嗓等非语言发声事件，显著提升语音的真实感和表现力。
零样本语音合成
无需目标说话者的语音样本，仅凭文本即可生成具有个性特征的高质量语音。

技术实现

SoulX-Podcast 采用两阶段生成架构：

文本 → 语义标记：基于预训练大语言模型（LLM），将输入文本（含说话人标识、副语言指令等）转化为语义标记序列。
语义标记 → 语音波形：通过流匹配（flow matching）将语义标记映射为声学特征，再由声码器合成最终音频。

为建模长对话的上下文依赖，系统引入上下文正则化机制：在训练中逐步丢弃历史语音标记，迫使模型更多依赖语义连贯性而非记忆冗余信息，从而提升长篇生成的稳定性。

训练流程分三步：

首先在大规模独白与对话数据上预训练 LLM；
然后在多说话者对话数据上微调；
最后针对方言数据进行专项优化。

输入采用文本-语音交错序列格式，即每位说话者的文本后紧跟其对应的语音标记，按时间顺序拼接，便于模型理解对话结构。

实测表现

独白合成：在中文零样本克隆任务中，字符错误率（CER）低至 1.10%；英文词错误率（WER）为 1.91%，接近当前最优水平，同时说话者相似度评分领先。
多说话者播客：在中英文多轮对话测试中，WER/CER 均优于现有 SOTA 模型，说话者一致性（cpSIM）显著更高。
副语言控制：笑声生成准确率达 1.00，叹气与清嗓分别为 0.85 和 0.80。
方言生成：四川话、河南话、粤语的语音质量与说话人一致性与普通话、英语相当，验证了跨方言泛化能力。

应用场景

播客自动化制作：快速生成多角色、多方言的播客内容，降低制作门槛。
智能语音交互：为语音助手赋予更自然的对话能力和方言支持。
有声读物与多媒体配音：生成带情感和角色区分的语音，提升听觉体验。
语言学习工具：提供包含真实副语言和方言变体的语音样本，辅助发音与语感训练。
内容创作辅助：为视频、动画、游戏等提供低成本、高可控性的对话语音生成方案。

语音模型 # SoulX-Podcast # 播客

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Kyutai发布首个开源实时语音模型MoshiVis，开启视觉与语音交互新时代

Kyutai发布首个开源实时语音模型MoshiVis，开启视觉与语音交互新时代

语音模型 # MoshiVis # 语音模型

11个月前

02030

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

语音模型 # Kokoro-82M # TTS

1年前

03,5140

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

语音模型 # FusionAudio-1.2M

8个月前

01700

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

语音模型 # Hume AI # Octave # TTS

11个月前

02670

暂无评论

none

暂无评论...