
新Krisp
Krisp的AI口音转换功能为跨语言沟通提供了一种新的解决方案。通过实时将说话者的口音转换为美国英语,该工具能够有效减少沟通障碍,提高沟通效率。尽管目前该技术主要针对印度英语口音,但其未来扩展计划显示了其巨大的应用潜力。
LOADING
Zonos是Zyphra推出的开源TTS模型,使用超过 20 万小时的多语言语音进行训练,其表现力和质量与顶级 TTS 提供商相当,甚至超越了它们。虽然主要数据集为英语内容,但也包含大量中文、日语、法语、西班牙语和德语的语音数据,从而支持多语言合成。
Zonos在给定说话者嵌入或音频前缀的情况下,能够根据文本提示生成高度自然的语音,仅需 5 到 30 秒的样本语音即可完成克隆。用户还可以控制语速、音高变化、音频质量以及情感(如悲伤、恐惧、愤怒、快乐和惊讶)等参数。合成语音的采样率为 44 kHz,确保高保真音质。
从个人测试来看,其对于中文的支持并不好,尤其是中英文混合的文本在转换的时候会出现缺失或者无法阅读文本中的英语。
Zyphra对于旗下模型采用的是开源+API的模型,大家可以购买API进行使用,而免费用户官方也提供了每月100分钟的使用额度。