对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

语音模型5个月前发布 小马良
429 0

复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD(Text to Spoken Dialogue),这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型。

  • 项目主页:https://www.open-moss.com/cn/moss-ttsd
  • GitHub:https://github.com/OpenMOSS/MOSS-TTSD
  • 模型:https://huggingface.co/fnlp/MOSS-TTSD-v0
  • Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD

该模型支持:

  • 中英双语高表现力语音合成
  • 零样本多说话人音色克隆
  • 声音事件控制
  • 超长语音生成(最长可达 960 秒)

MOSS-TTSD 的发布,标志着 TTS 技术正从“单句朗读”迈向“真实对话”的新阶段。

为什么需要对话语音生成?

在现实世界中,语音交互最常见于对话场景,如播客、访谈、新闻播报、电商直播等。这些情境下的语音不仅包含语义内容,还带有丰富的韵律、节奏、情感和角色切换特征

然而,现有 TTS 模型大多专注于单句语音生成,缺乏对上下文语境建模能力,导致在生成对话语音时常常显得生硬、不连贯。

为了解决这一问题,MOSS-TTSD 应运而生 —— 它不仅能理解对话中的角色关系,还能生成符合上下文语气和情绪的语音,实现更自然、更具沉浸感的语音交互体验。

🔍 MOSS-TTSD 的核心功能

功能描述
中英双语支持支持中文与英文的高质量语音合成
零样本音色克隆仅需一段音频即可克隆说话人声音,无需额外训练
声音事件控制可控制语音中的停顿、语速、重音等细节
长语音生成支持一次性生成长达 960 秒的连续语音,避免拼接带来的不自然过渡

🏗️ 技术架构与创新点

1. XY-Tokenizer:低比特率语音离散化编码器

  • 基于 Whisper Encoder 构建,8 层 RVQ 结构
  • 实现 1kbps 的比特率与 12.5Hz 的帧率
  • 同时编码语义与声学信息,提升 LLM 对语音 token 的建模能力
  • 使用 10 万小时带文本语音 + 50 万小时无文本语音进行训练,增强复杂音频处理能力

2. 基于 Qwen3-1.7B 的自回归建模

  • 在 XY-Tokenizer 编码基础上,采用自回归加多头 Delay 的方式生成语音 token
  • 继续预训练于约 100 万小时单人语音 + 40 万小时对话语音数据
  • 支持双人音色建模与自然切换

3. 大规模高质量数据工程

  • 利用内部说话人分离模型(优于 pyannoteAI)
  • DNSMOS 分数筛选高质量语音片段(≥2.8)
  • 自动构建粗粒度对话片段,并结合 Whisper-d 进行细粒度标注
  • 最终形成 10 万小时中文 + 27 万小时英文对话数据
  • 合成 4 万小时中英文对话用于说话人切换训练

📊 模型训练与评估结果

TTS 预训练阶段

  • 使用 110 万小时中英文 TTS 数据
  • 性能与 Seed-TTS 相当,具备良好的零样本音色克隆能力

TTSD 后训练阶段

  • 引入 WSD Scheduler 训练策略
  • 通过人工评估挑选最优检查点
  • 支持标点感知与语气建模优化

样本对比测试

  • 中文 vs MoonCast:MOSS-TTSD 更自然、稳定、富有表现力
  • 中文 vs 豆包播客 TTS:MOSS-TTSD 在保持相同表现力的同时,支持零样本音色克隆和更高文本定制性

🎙️ 实际应用场景展示:AI 播客生成

我们基于 AI 热点新闻生成了多个播客样例,与商业模型豆包进行了对比:

维度MOSS-TTSD豆包播客 TTS
情感丰富度✅ 接近真人表达✅ 表达自然
语气自然度✅ 有抑扬顿挫✅ 整体流畅
表现力✅ 支持情绪变化✅ 稳定输出
可定制性✅ 支持文本微调❌ 商业封闭接口
音色克隆✅ 零样本克隆❌ 不开放

结果显示:MOSS-TTSD 已具备与主流商业模型相当的表现力水平,且具备更强的开放性和可定制性。

🚀 未来展望

MOSS-TTSD 是迈向真正“拟人化”语音生成的重要一步。接下来,我们将继续优化以下几个方向:

  • 多人对话建模:扩展至三人及以上场景
  • 跨语言混合对话:支持中英混说等复杂语境
  • 实时语音生成系统:降低延迟,提升部署效率
  • 更多可控参数开放:如情绪标签、语速调节等
© 版权声明

相关文章

暂无评论

none
暂无评论...