
Voice Clone Studio
Voice Clone Studio是一个基于 Gradio 的语音克隆与语音设计 Web 界面,由 Qwen3-TTS 和 VibeVoice 驱动。支持使用 Whisper 或 VibeVoice-asr 进行自动转录。
Zonos是Zyphra推出的开源TTS模型,使用超过 20 万小时的多语言语音进行训练,其表现力和质量与顶级 TTS 提供商相当,甚至超越了它们。虽然主要数据集为英语内容,但也包含大量中文、日语、法语、西班牙语和德语的语音数据,从而支持多语言合成。

Zonos在给定说话者嵌入或音频前缀的情况下,能够根据文本提示生成高度自然的语音,仅需 5 到 30 秒的样本语音即可完成克隆。用户还可以控制语速、音高变化、音频质量以及情感(如悲伤、恐惧、愤怒、快乐和惊讶)等参数。合成语音的采样率为 44 kHz,确保高保真音质。

从个人测试来看,其对于中文的支持并不好,尤其是中英文混合的文本在转换的时候会出现缺失或者无法阅读文本中的英语。

Zyphra对于旗下模型采用的是开源+API的模型,大家可以购买API进行使用,而免费用户官方也提供了每月100分钟的使用额度。







