Resemble AI 正式开源 Chatterbox 系列——一个由三款高性能文本转语音(TTS)模型组成的开源 TTS 工具集,覆盖低延迟交互、多语言支持与创意语音控制三大典型场景。所有模型均支持零样本语音合成(zero-shot TTS),无需微调即可生成自然语音。
- GitHub:https://github.com/resemble-ai/chatterbox
- 模型:https://huggingface.co/ResembleAI/chatterbox-turbo
- Demo:https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo

Chatterbox-Turbo:为智能体优化的高效模型
Chatterbox-Turbo 是该系列中计算效率最高的版本,专为语音智能体、实时对话系统等低延迟场景设计。
核心优化:
- 3.5 亿参数架构:显著降低显存与计算需求;
- 一步式梅尔频谱解码器:通过知识蒸馏,将原需 10 步的语音令牌到梅尔频谱生成压缩为 单步推理,推理速度大幅提升;
- 内建副语言标签支持:可通过
[cough]、[laugh]、[chuckle]等标签注入非语言语音行为,增强交互真实感; - 高保真输出:在减少计算量的同时,保持接近人类语音的自然度。
尽管面向智能体场景,Turbo 在有声书、播客草稿等叙述性任务中同样表现良好。
完整模型矩阵
| 模型 | 参数量 | 语言支持 | 核心能力 | 典型应用场景 |
|---|---|---|---|---|
| Chatterbox-Turbo | 3.5 亿 | 英语 | 副语言标签、单步解码、低资源占用 | 语音助手、实时对话智能体、嵌入式设备 |
| Chatterbox-Multilingual | 5 亿 | 23+ 种语言 | 零样本跨语言语音克隆 | 全球化应用、多语言客服、本地化内容生成 |
| Chatterbox(标准版) | 5 亿 | 英语 | 支持 CFG(Classifier-Free Guidance)与夸张度调节 | 创意音频制作、角色配音、可控语音表达 |
所有模型均基于 Transformer 架构,支持通过文本提示控制语调、节奏与情感强度,无需额外训练数据。

开源与商用选项
- 开源版本:模型权重与推理代码已在 Hugging Face 开源,可免费用于研究与商业项目(遵循对应许可证);
- 托管 TTS 服务:如需更高稳定性、超低延迟(<200ms)或企业级 SLA,Resemble AI 同时提供托管 API 服务,定价具竞争力。
开源模型适合实验与定制;托管服务适合生产环境部署。
技术亮点总结
- 零样本语音克隆:输入任意参考语音(数秒即可),模型可模仿其音色;
- 无需微调:所有能力通过提示词(prompt)或标签控制;
- 高效推理:Turbo 模型尤其适合资源受限环境;
- 真实感增强:副语言标签填补了传统 TTS 在“非语言行为”上的空白。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















