SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

语音模型1个月前发布 小马良
54 0

西北工业大学、Soul AI 实验室与上海交通大学联合推出 SoulX-Podcast —— 一个专为长篇、多轮次、多说话者对话场景设计的语音合成系统。它不仅能生成高质量的播客风格对话语音,也在传统单说话者语音合成任务中表现优异。

与主流语音合成系统聚焦于单人独白不同,SoulX-Podcast 的核心目标是模拟真实播客中的自然对话:多人交替发言、语调随语境变化、夹杂笑声或叹息等副语言特征,并支持多种语言与方言。

SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

核心能力

  • 多说话者对话生成
    支持生成连贯的多轮次对话,每位说话者拥有稳定的声音特征,对话节奏自然,适用于播客、有声剧等场景。
  • 多方言与多语言支持
    除普通话和英语外,还支持四川话、河南话和粤语。系统可在无目标方言语音样本的情况下,通过文本提示生成对应方言语音(零样本跨方言克隆)。
  • 副语言控制
    可精确控制笑声、叹气、清嗓等非语言发声事件,显著提升语音的真实感和表现力。
  • 零样本语音合成
    无需目标说话者的语音样本,仅凭文本即可生成具有个性特征的高质量语音。

技术实现

SoulX-Podcast 采用两阶段生成架构:

  1. 文本 → 语义标记:基于预训练大语言模型(LLM),将输入文本(含说话人标识、副语言指令等)转化为语义标记序列。
  2. 语义标记 → 语音波形:通过流匹配(flow matching)将语义标记映射为声学特征,再由声码器合成最终音频。

为建模长对话的上下文依赖,系统引入上下文正则化机制:在训练中逐步丢弃历史语音标记,迫使模型更多依赖语义连贯性而非记忆冗余信息,从而提升长篇生成的稳定性。

训练流程分三步:

  • 首先在大规模独白与对话数据上预训练 LLM;
  • 然后在多说话者对话数据上微调;
  • 最后针对方言数据进行专项优化。

输入采用文本-语音交错序列格式,即每位说话者的文本后紧跟其对应的语音标记,按时间顺序拼接,便于模型理解对话结构。

实测表现

  • 独白合成:在中文零样本克隆任务中,字符错误率(CER)低至 1.10%;英文词错误率(WER)为 1.91%,接近当前最优水平,同时说话者相似度评分领先。
  • 多说话者播客:在中英文多轮对话测试中,WER/CER 均优于现有 SOTA 模型,说话者一致性(cpSIM)显著更高。
  • 副语言控制:笑声生成准确率达 1.00,叹气与清嗓分别为 0.85 和 0.80
  • 方言生成:四川话、河南话、粤语的语音质量与说话人一致性与普通话、英语相当,验证了跨方言泛化能力。

应用场景

  • 播客自动化制作:快速生成多角色、多方言的播客内容,降低制作门槛。
  • 智能语音交互:为语音助手赋予更自然的对话能力和方言支持。
  • 有声读物与多媒体配音:生成带情感和角色区分的语音,提升听觉体验。
  • 语言学习工具:提供包含真实副语言和方言变体的语音样本,辅助发音与语感训练。
  • 内容创作辅助:为视频、动画、游戏等提供低成本、高可控性的对话语音生成方案。
© 版权声明

相关文章

暂无评论

none
暂无评论...