Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

语音模型3个月前发布小马良

75 0

Resemble AI 正式开源 Chatterbox 系列——一个由三款高性能文本转语音（TTS）模型组成的开源 TTS 工具集，覆盖低延迟交互、多语言支持与创意语音控制三大典型场景。所有模型均支持零样本语音合成（zero-shot TTS），无需微调即可生成自然语音。

GitHub：https://github.com/resemble-ai/chatterbox
模型：https://huggingface.co/ResembleAI/chatterbox-turbo
Demo：https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo

Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

Chatterbox-Turbo：为智能体优化的高效模型

Chatterbox-Turbo 是该系列中计算效率最高的版本，专为语音智能体、实时对话系统等低延迟场景设计。

核心优化：

3.5 亿参数架构：显著降低显存与计算需求；
一步式梅尔频谱解码器：通过知识蒸馏，将原需 10 步的语音令牌到梅尔频谱生成压缩为 单步推理，推理速度大幅提升；
内建副语言标签支持：可通过 [cough]、[laugh]、[chuckle] 等标签注入非语言语音行为，增强交互真实感；
高保真输出：在减少计算量的同时，保持接近人类语音的自然度。

尽管面向智能体场景，Turbo 在有声书、播客草稿等叙述性任务中同样表现良好。

完整模型矩阵

模型	参数量	语言支持	核心能力	典型应用场景
Chatterbox-Turbo	3.5 亿	英语	副语言标签、单步解码、低资源占用	语音助手、实时对话智能体、嵌入式设备
Chatterbox-Multilingual	5 亿	23+ 种语言	零样本跨语言语音克隆	全球化应用、多语言客服、本地化内容生成
Chatterbox（标准版）	5 亿	英语	支持 CFG（Classifier-Free Guidance）与夸张度调节	创意音频制作、角色配音、可控语音表达

所有模型均基于 Transformer 架构，支持通过文本提示控制语调、节奏与情感强度，无需额外训练数据。

Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

开源与商用选项

开源版本：模型权重与推理代码已在 Hugging Face 开源，可免费用于研究与商业项目（遵循对应许可证）；
托管 TTS 服务：如需更高稳定性、超低延迟（<200ms）或企业级 SLA，Resemble AI 同时提供托管 API 服务，定价具竞争力。

开源模型适合实验与定制；托管服务适合生产环境部署。

技术亮点总结

零样本语音克隆：输入任意参考语音（数秒即可），模型可模仿其音色；
无需微调：所有能力通过提示词（prompt）或标签控制；
高效推理：Turbo 模型尤其适合资源受限环境；
真实感增强：副语言标签填补了传统 TTS 在“非语言行为”上的空白。

语音模型 # Chatterbox-Turbo

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

语音模型 # ElevenLabs # SFX v2 # 音效生成模型

7个月前

01820

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

语音模型 # ACE-Step # 音乐模型

11个月前

04990

Hume AI 开源 TTS 模型 TADA：文本 - 声学一对一同步，推理速度提升 5 倍且零幻觉

Hume AI 开源 TTS 模型 TADA：文本 - 声学一对一同步，推理速度提升 5 倍且零幻觉

语音模型 # Hume AI # TADA # TTS

2周前

0610

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

语音模型 # Llama-3b # Orpheus TTS # TTS

1年前

02470

暂无评论

none

暂无评论...