Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

Resemble AI 正式开源 Chatterbox 系列——一个由三款高性能文本转语音(TTS)模型组成的开源 TTS 工具集,覆盖低延迟交互、多语言支持创意语音控制三大典型场景。所有模型均支持零样本语音合成(zero-shot TTS),无需微调即可生成自然语音。

Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

Chatterbox-Turbo:为智能体优化的高效模型

Chatterbox-Turbo 是该系列中计算效率最高的版本,专为语音智能体、实时对话系统等低延迟场景设计。

核心优化:

  • 3.5 亿参数架构:显著降低显存与计算需求;
  • 一步式梅尔频谱解码器:通过知识蒸馏,将原需 10 步的语音令牌到梅尔频谱生成压缩为 单步推理,推理速度大幅提升;
  • 内建副语言标签支持:可通过 [cough][laugh][chuckle] 等标签注入非语言语音行为,增强交互真实感;
  • 高保真输出:在减少计算量的同时,保持接近人类语音的自然度。

尽管面向智能体场景,Turbo 在有声书、播客草稿等叙述性任务中同样表现良好。

完整模型矩阵

模型参数量语言支持核心能力典型应用场景
Chatterbox-Turbo3.5 亿英语副语言标签、单步解码、低资源占用语音助手、实时对话智能体、嵌入式设备
Chatterbox-Multilingual5 亿23+ 种语言零样本跨语言语音克隆全球化应用、多语言客服、本地化内容生成
Chatterbox(标准版)5 亿英语支持 CFG(Classifier-Free Guidance)与夸张度调节创意音频制作、角色配音、可控语音表达

所有模型均基于 Transformer 架构,支持通过文本提示控制语调、节奏与情感强度,无需额外训练数据。

Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

开源与商用选项

  • 开源版本:模型权重与推理代码已在 Hugging Face 开源,可免费用于研究与商业项目(遵循对应许可证);
  • 托管 TTS 服务:如需更高稳定性、超低延迟(<200ms)或企业级 SLA,Resemble AI 同时提供托管 API 服务,定价具竞争力。

开源模型适合实验与定制;托管服务适合生产环境部署。

技术亮点总结

  • 零样本语音克隆:输入任意参考语音(数秒即可),模型可模仿其音色;
  • 无需微调:所有能力通过提示词(prompt)或标签控制;
  • 高效推理:Turbo 模型尤其适合资源受限环境;
  • 真实感增强:副语言标签填补了传统 TTS 在“非语言行为”上的空白。
© 版权声明

相关文章

暂无评论

none
暂无评论...