Resemble AI推出首个情感可控的开源TTS模型Chatterbox

语音模型7个月前更新小马良

396 0

Resemble AI正式发布了其首个生产级开源TTS模型——Chatterbox。这是目前市面上少有的、具备高质量语音合成能力并支持情感控制的开源项目。~~目前仅支持英文。~~

GitHub：https://github.com/resemble-ai/chatterbox
模型：https://huggingface.co/ResembleAI/chatterbox
Demo：https://huggingface.co/spaces/ResembleAI/Chatterbox

Chatterbox基于MIT许可证开源，已在Hugging Face和GitHub上线。它不仅在多个维度上超越了ElevenLabs等主流闭源系统，在实际盲测中也获得了更高偏好度。

Resemble AI于2025年9月推出Chatterbox Multilingual，这是Resemble AI首个支持23种语言的生产级开源文本转语音（TTS）模型。该模型采用MIT许可证发布，经过与领先的闭源系统如ElevenLabs的基准测试，在并行评估中始终更受青睐。

Demo：https://huggingface.co/spaces/ResembleAI/Chatterbox-Multilingual-TTS

无论您是在制作迷因、视频、游戏还是AI代理，Chatterbox都能让您的内容在多种语言中栩栩如生。它还是首个支持情感夸张控制的开源TTS模型，具备强大的多语言零样本语音克隆功能。

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

关键细节

支持23种语言的多语言、零样本TTS
最先进的零样本英语TTS
基于0.5亿参数的Llama架构
独特的情感夸张/强度控制
利用对齐信息推断，超稳定
在50万小时的清理数据上训练
输出带水印
简单的语音转换脚本
性能超越ElevenLabs

支持的语言

阿拉伯语 (ar) • 丹麦语 (da) • 德语 (de) • 希腊语 (el) • 英语 (en) • 西班牙语 (es) • 芬兰语 (fi) • 法语 (fr) • 希伯来语 (he) • 印地语 (hi) • 意大利语 (it) • 日语 (ja) • 韩语 (ko) • 马来语 (ms) • 荷兰语 (nl) • 挪威语 (no) • 波兰语 (pl) • 葡萄牙语 (pt) • 俄语 (ru) • 瑞典语 (sv) • 斯瓦希里语 (sw) • 土耳其语 (tr) • 中文 (zh)

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

为什么选择Chatterbox？

首个支持情感夸张控制的开源TTS模型
只需一个参数，即可从平淡无奇切换到富有表现力的语音输出。
零样本语音克隆
输入几秒钟参考音频，即可快速克隆目标声音，无需额外训练。
实时推理性能
推理延迟低于200毫秒，非常适合用于AI代理、互动媒体和语音助手等实时场景。
内置水印机制（PerTh）
所有生成音频均嵌入不可听水印，确保内容可追踪，同时不影响音质。
基于50万小时清洗数据训练
模型稳定性高，适应多种使用场景。

实际表现如何？

在与ElevenLabs的对比测试中，Chatterbox在以下方面展现出优势：

更自然的语音节奏
更高的表达丰富性
更低的延迟与更高的吞吐量

测试基于Podonos平台进行，采用相同文本输入与7~20秒参考音频，未做任何提示工程或音频处理。

使用建议

常规使用（如视频配音、语音代理）

默认设置（exaggeration=0.5, cfg=0.5）适用于大多数场景
若参考语音较快，可将cfg调低至约0.3以改善节奏

表达性强的语音（如游戏角色、短视频旁白）

尝试降低cfg值（如0.3），并将exaggeration提升至0.7以上
高夸张度会加快语速，适当降低cfg可平衡节奏感

开发者友好设计

简洁安装方式：pip install resemble
支持自定义语音转换脚本
完善文档与示例代码已同步上线

企业级服务支持

如果你希望进一步扩展或定制模型，Resemble AI也提供高性能TTS托管服务，支持：

超低延迟（<200ms）
高并发处理
多语言与多音色支持

适合用于大规模应用、AI代理部署和内容创作平台集成。

语音模型 # Chatterbox # Resemble AI # TTS模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

语音模型 # ThinkSound # 多模态视频-音频生成

9个月前

02180

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

语音模型 # Grok Voice Agent

3个月前

0310

Stable Audio 2.5 发布：Stability AI 推出首款企业级音效制作专用音频模型

Stable Audio 2.5 发布：Stability AI 推出首款企业级音效制作专用音频模型

语音模型 # Stability AI # Stable Audio 2.5

7个月前

01940

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

语音模型 # Kokoro-82M # TTS

1年前

03,5420

暂无评论

none

暂无评论...