Zyphra开源支持高保真语音克隆的实时文本转语音（TTS）模型 Zonos-v0.1 测试版

247 0

Zyphra 最近发布了 Zonos-v0.1 测试版，这是一款支持高保真语音克隆的实时文本转语音（TTS）模型。作为开源项目的一部分，Zonos-v0.1 包含两个强大的 TTS 模型：一个 16 亿参数的 Transformer 模型和一个规模相近的混合模型。这些模型基于 Apache 2.0 许可证发布，旨在推动 TTS 技术的研究与应用。

官方介绍：https://www.zyphra.com/post/beta-release-of-zonos-v0-1
GitHub：https://github.com/Zyphra/Zonos
模型：Zonos-v0.1-hybrid |Zonos-v0.1-transformer

背景与挑战

尽管近年来 TTS 技术取得了显著进展，但在生成自然、富有表现力且高保真的语音方面仍存在诸多挑战。传统 TTS 系统难以捕捉人类语音的细微差别，例如语调、情感和口音，导致合成语音听起来不够自然。此外，精确的语音克隆技术仍然受限，阻碍了个性化或多样化语音输出的实现。这些问题促使研究人员开发更复杂的 TTS 模型，以实现实时、逼真的语音合成。

Zonos-v0.1 的核心特点

高保真语音克隆
- Zonos-v0.1 支持仅需 5 到 30 秒样本语音即可完成高质量的语音克隆。
- 用户可以通过提供简短的说话人样本和文本输入，生成高度逼真的语音输出。
多语言支持
- 该模型基于约 20 万小时的语音数据训练，涵盖英语、中文、日语、法语、西班牙语和德语等多种语言。
- 主要数据集为英语内容，但包含大量其他语言的语音数据，确保多语言合成的准确性。
音频质量与情感控制
- 用户可以微调音高、频率范围和情感语调（如悲伤、恐惧、愤怒、快乐和惊讶），生成更具表现力和自然感的语音。
- 合成语音采样率为 44 kHz，确保高保真音质。
零样本 TTS 与音频前缀输入
- 支持零样本 TTS，用户只需提供简短的说话人样本和文本输入即可生成语音。
- 音频前缀功能允许模型更好地匹配说话人特征，甚至复现特定的说话风格（如耳语）。
高效性能
- 在 RTX 4090 上运行时，Zonos-v0.1 可以以接近实时两倍的速度生成语音，适用于实时应用场景。
用户友好界面
- 基于 Gradio 的 WebUI 提供了直观的操作界面，简化了语音生成流程，使其更易于使用。
便捷部署
- 提供 Docker 设置，用户可以轻松安装和部署模型，快速集成到现有工作流程中。

技术创新

混合模型架构
- Zonos-v0.1 中的混合模型基于 Mamba2 架构设计，减少了对注意力机制的依赖。
- 这一改进降低了延迟和内存使用，同时提升了模型的实时性能。
表现力与自然度
- Zonos-v0.1 不仅能够生成清晰、自然的语音，还能通过情感控制功能赋予语音更多表现力。
- 初步评估显示，其表现与领先的专有系统相当甚至更优。

与其他模型的对比

特性	Zonos-v0.1	ElevenLabs	Cartesia	FishSpeech-v1.5
语音克隆能力	高	高	中	低
多语言支持	英语、中文、日语等	英语为主	英语为主	英语为主
情感控制	支持	部分支持	有限支持	不支持
实时性能	实时两倍速度	实时	实时	准实时
开源性	开源	闭源	闭源	开源