Resemble AI推出首个情感可控的开源TTS模型Chatterbox

语音模型3个月前更新 小马良
306 0

Resemble AI正式发布了其首个生产级开源TTS模型——Chatterbox。这是目前市面上少有的、具备高质量语音合成能力并支持情感控制的开源项目。目前仅支持英文。

Chatterbox基于MIT许可证开源,已在Hugging Face和GitHub上线。它不仅在多个维度上超越了ElevenLabs等主流闭源系统,在实际盲测中也获得了更高偏好度。


Resemble AI于2025年9月推出Chatterbox Multilingual,这是Resemble AI首个支持23种语言的生产级开源文本转语音(TTS)模型。该模型采用MIT许可证发布,经过与领先的闭源系统如ElevenLabs的基准测试,在并行评估中始终更受青睐。

无论您是在制作迷因、视频、游戏还是AI代理,Chatterbox都能让您的内容在多种语言中栩栩如生。它还是首个支持情感夸张控制的开源TTS模型,具备强大的多语言零样本语音克隆功能。

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

关键细节

  • 支持23种语言的多语言、零样本TTS
  • 最先进的零样本英语TTS
  • 基于0.5亿参数的Llama架构
  • 独特的情感夸张/强度控制
  • 利用对齐信息推断,超稳定
  • 在50万小时的清理数据上训练
  • 输出带水印
  • 简单的语音转换脚本
  • 性能超越ElevenLabs

支持的语言

阿拉伯语 (ar) • 丹麦语 (da) • 德语 (de) • 希腊语 (el) • 英语 (en) • 西班牙语 (es) • 芬兰语 (fi) • 法语 (fr) • 希伯来语 (he) • 印地语 (hi) • 意大利语 (it) • 日语 (ja) • 韩语 (ko) • 马来语 (ms) • 荷兰语 (nl) • 挪威语 (no) • 波兰语 (pl) • 葡萄牙语 (pt) • 俄语 (ru) • 瑞典语 (sv) • 斯瓦希里语 (sw) • 土耳其语 (tr) • 中文 (zh)

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

为什么选择Chatterbox?

  • 首个支持情感夸张控制的开源TTS模型
    只需一个参数,即可从平淡无奇切换到富有表现力的语音输出。
  • 零样本语音克隆
    输入几秒钟参考音频,即可快速克隆目标声音,无需额外训练。
  • 实时推理性能
    推理延迟低于200毫秒,非常适合用于AI代理、互动媒体和语音助手等实时场景。
  • 内置水印机制(PerTh)
    所有生成音频均嵌入不可听水印,确保内容可追踪,同时不影响音质。
  • 基于50万小时清洗数据训练
    模型稳定性高,适应多种使用场景。

实际表现如何?

在与ElevenLabs的对比测试中,Chatterbox在以下方面展现出优势:

  • 更自然的语音节奏
  • 更高的表达丰富性
  • 更低的延迟与更高的吞吐量

测试基于Podonos平台进行,采用相同文本输入与7~20秒参考音频,未做任何提示工程或音频处理。

使用建议

常规使用(如视频配音、语音代理)

  • 默认设置(exaggeration=0.5cfg=0.5)适用于大多数场景
  • 若参考语音较快,可将cfg调低至约0.3以改善节奏

表达性强的语音(如游戏角色、短视频旁白)

  • 尝试降低cfg值(如0.3),并将exaggeration提升至0.7以上
  • 高夸张度会加快语速,适当降低cfg可平衡节奏感

开发者友好设计

  • 简洁安装方式:pip install resemble
  • 支持自定义语音转换脚本
  • 完善文档与示例代码已同步上线

企业级服务支持

如果你希望进一步扩展或定制模型,Resemble AI也提供高性能TTS托管服务,支持:

  • 超低延迟(<200ms)
  • 高并发处理
  • 多语言与多音色支持

适合用于大规模应用、AI代理部署和内容创作平台集成。

© 版权声明

相关文章

暂无评论

none
暂无评论...