对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

语音模型9个月前发布小马良

655 0

复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD（Text to Spoken Dialogue），这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型。

项目主页：https://www.open-moss.com/cn/moss-ttsd
GitHub：https://github.com/OpenMOSS/MOSS-TTSD
模型：https://huggingface.co/fnlp/MOSS-TTSD-v0
Demo：https://huggingface.co/spaces/fnlp/MOSS-TTSD

该模型支持：

中英双语高表现力语音合成
零样本多说话人音色克隆
声音事件控制
超长语音生成（最长可达 960 秒）

MOSS-TTSD 的发布，标志着 TTS 技术正从“单句朗读”迈向“真实对话”的新阶段。

为什么需要对话语音生成？

在现实世界中，语音交互最常见于对话场景，如播客、访谈、新闻播报、电商直播等。这些情境下的语音不仅包含语义内容，还带有丰富的韵律、节奏、情感和角色切换特征。

然而，现有 TTS 模型大多专注于单句语音生成，缺乏对上下文语境建模能力，导致在生成对话语音时常常显得生硬、不连贯。

为了解决这一问题，MOSS-TTSD 应运而生 —— 它不仅能理解对话中的角色关系，还能生成符合上下文语气和情绪的语音，实现更自然、更具沉浸感的语音交互体验。

🔍 MOSS-TTSD 的核心功能

功能	描述
中英双语支持	支持中文与英文的高质量语音合成
零样本音色克隆	仅需一段音频即可克隆说话人声音，无需额外训练
声音事件控制	可控制语音中的停顿、语速、重音等细节
长语音生成	支持一次性生成长达 960 秒的连续语音，避免拼接带来的不自然过渡

🏗️ 技术架构与创新点

1. XY-Tokenizer：低比特率语音离散化编码器

基于 Whisper Encoder 构建，8 层 RVQ 结构
实现 1kbps 的比特率与 12.5Hz 的帧率
同时编码语义与声学信息，提升 LLM 对语音 token 的建模能力
使用 10 万小时带文本语音 + 50 万小时无文本语音进行训练，增强复杂音频处理能力

2. 基于 Qwen3-1.7B 的自回归建模

在 XY-Tokenizer 编码基础上，采用自回归加多头 Delay 的方式生成语音 token
继续预训练于约 100 万小时单人语音 + 40 万小时对话语音数据
支持双人音色建模与自然切换

3. 大规模高质量数据工程

利用内部说话人分离模型（优于 pyannoteAI）
DNSMOS 分数筛选高质量语音片段（≥2.8）
自动构建粗粒度对话片段，并结合 Whisper-d 进行细粒度标注
最终形成 10 万小时中文 + 27 万小时英文对话数据
合成 4 万小时中英文对话用于说话人切换训练

📊 模型训练与评估结果

TTS 预训练阶段

使用 110 万小时中英文 TTS 数据
性能与 Seed-TTS 相当，具备良好的零样本音色克隆能力

TTSD 后训练阶段

引入 WSD Scheduler 训练策略
通过人工评估挑选最优检查点
支持标点感知与语气建模优化

样本对比测试

中文 vs MoonCast：MOSS-TTSD 更自然、稳定、富有表现力
中文 vs 豆包播客 TTS：MOSS-TTSD 在保持相同表现力的同时，支持零样本音色克隆和更高文本定制性

🎙️ 实际应用场景展示：AI 播客生成

我们基于 AI 热点新闻生成了多个播客样例，与商业模型豆包进行了对比：

维度	MOSS-TTSD	豆包播客 TTS
情感丰富度	✅ 接近真人表达	✅ 表达自然
语气自然度	✅ 有抑扬顿挫	✅ 整体流畅
表现力	✅ 支持情绪变化	✅ 稳定输出
可定制性	✅ 支持文本微调	❌ 商业封闭接口
音色克隆	✅ 零样本克隆	❌ 不开放

结果显示：MOSS-TTSD 已具备与主流商业模型相当的表现力水平，且具备更强的开放性和可定制性。

🚀 未来展望

MOSS-TTSD 是迈向真正“拟人化”语音生成的重要一步。接下来，我们将继续优化以下几个方向：

多人对话建模：扩展至三人及以上场景
跨语言混合对话：支持中英混说等复杂语境
实时语音生成系统：降低延迟，提升部署效率
更多可控参数开放：如情绪标签、语速调节等

语音模型 # MOSS-TTSD # 复旦大学

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Kyutai 开源 Hibiki-Zero：3B 参数实时语音翻译模型，无需词级对齐，支持音色迁移

Kyutai 开源 Hibiki-Zero：3B 参数实时语音翻译模型，无需词级对齐，支持音色迁移

语音模型 # Hibiki-Zero # 实时语音翻译模型

4周前

0150

英伟达推出实时语音对话模型PersonaPlex，打造支持自定义角色与声音的自然对话AI

英伟达推出实时语音对话模型PersonaPlex，打造支持自定义角色与声音的自然对话AI

语音模型 # PersonaPlex # 实时语音对话模型 # 英伟达

2个月前

0290

NeuTTS Air：可在本地运行的高效语音合成模型

NeuTTS Air：可在本地运行的高效语音合成模型

语音模型 # NeuTTS Air # 语音合成模型

5个月前

05430

KaniTTS 发布：一种高效且富有表现力的文本到语音模型

KaniTTS 发布：一种高效且富有表现力的文本到语音模型

语音模型 # KaniTTS

5个月前

01920

暂无评论

none

暂无评论...