Resemble AI正式发布了其首个生产级开源TTS模型——Chatterbox。这是目前市面上少有的、具备高质量语音合成能力并支持情感控制的开源项目。目前仅支持英文。
- GitHub:https://github.com/resemble-ai/chatterbox
- 模型:https://huggingface.co/ResembleAI/chatterbox
- Demo:https://huggingface.co/spaces/ResembleAI/Chatterbox
Chatterbox基于MIT许可证开源,已在Hugging Face和GitHub上线。它不仅在多个维度上超越了ElevenLabs等主流闭源系统,在实际盲测中也获得了更高偏好度。
Resemble AI于2025年9月推出Chatterbox Multilingual,这是Resemble AI首个支持23种语言的生产级开源文本转语音(TTS)模型。该模型采用MIT许可证发布,经过与领先的闭源系统如ElevenLabs的基准测试,在并行评估中始终更受青睐。
无论您是在制作迷因、视频、游戏还是AI代理,Chatterbox都能让您的内容在多种语言中栩栩如生。它还是首个支持情感夸张控制的开源TTS模型,具备强大的多语言零样本语音克隆功能。

关键细节
- 支持23种语言的多语言、零样本TTS
- 最先进的零样本英语TTS
- 基于0.5亿参数的Llama架构
- 独特的情感夸张/强度控制
- 利用对齐信息推断,超稳定
- 在50万小时的清理数据上训练
- 输出带水印
- 简单的语音转换脚本
- 性能超越ElevenLabs
支持的语言
阿拉伯语 (ar) • 丹麦语 (da) • 德语 (de) • 希腊语 (el) • 英语 (en) • 西班牙语 (es) • 芬兰语 (fi) • 法语 (fr) • 希伯来语 (he) • 印地语 (hi) • 意大利语 (it) • 日语 (ja) • 韩语 (ko) • 马来语 (ms) • 荷兰语 (nl) • 挪威语 (no) • 波兰语 (pl) • 葡萄牙语 (pt) • 俄语 (ru) • 瑞典语 (sv) • 斯瓦希里语 (sw) • 土耳其语 (tr) • 中文 (zh)

为什么选择Chatterbox?
- 首个支持情感夸张控制的开源TTS模型
只需一个参数,即可从平淡无奇切换到富有表现力的语音输出。 - 零样本语音克隆
输入几秒钟参考音频,即可快速克隆目标声音,无需额外训练。 - 实时推理性能
推理延迟低于200毫秒,非常适合用于AI代理、互动媒体和语音助手等实时场景。 - 内置水印机制(PerTh)
所有生成音频均嵌入不可听水印,确保内容可追踪,同时不影响音质。 - 基于50万小时清洗数据训练
模型稳定性高,适应多种使用场景。
实际表现如何?
在与ElevenLabs的对比测试中,Chatterbox在以下方面展现出优势:
- 更自然的语音节奏
- 更高的表达丰富性
- 更低的延迟与更高的吞吐量
测试基于Podonos平台进行,采用相同文本输入与7~20秒参考音频,未做任何提示工程或音频处理。
使用建议
常规使用(如视频配音、语音代理)
- 默认设置(
exaggeration=0.5,cfg=0.5)适用于大多数场景 - 若参考语音较快,可将
cfg调低至约0.3以改善节奏
表达性强的语音(如游戏角色、短视频旁白)
- 尝试降低
cfg值(如0.3),并将exaggeration提升至0.7以上 - 高夸张度会加快语速,适当降低
cfg可平衡节奏感
开发者友好设计
- 简洁安装方式:
pip install resemble - 支持自定义语音转换脚本
- 完善文档与示例代码已同步上线
企业级服务支持
如果你希望进一步扩展或定制模型,Resemble AI也提供高性能TTS托管服务,支持:
- 超低延迟(<200ms)
- 高并发处理
- 多语言与多音色支持
适合用于大规模应用、AI代理部署和内容创作平台集成。















