Kokoro是一款先进的文本转语音(TTS)模型,以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro,其模型大小不超过300M,却能生成高质量的音频输出。特别值得一提的是,在NVIDIA T4 GPU上,仅需4.5秒即可生成长达2分25秒的语音内容。
自2024年12月25日发布0.19版本以来,Kokoro就以Apache 2.0许可证的形式完全以fp32精度开放给公众使用。而最近的一次更新是在今年1月12日,推出了0.23版本,不仅支持了更多的语言和声音选项,同时也继续沿用了Apache 2.0许可证,并保持了原有的参数规模架构。
PS:目前该模型不支持中英文混合以及数字,如下图,其中的英文和数字都无法转成语音。
行业领先的表现
在TTS Spaces Arena这一专门针对单语音竞技场设置的评估环境中,Kokoro凭借更少的参数和数据量实现了更高的Elo评分,稳居排行榜首:
- Kokoro v0.19:采用8200万参数,以Apache许可证发布,训练所用音频数据少于100小时。
- XTTS v2:具有4.67亿参数,采用CPML许可证,训练数据超过1万小时。
- Edge TTS:由微软提供,为专有模型。
- MetaVoice:拥有12亿参数,以Apache许可证发布,训练数据达10万小时。
- Parler Mini:具备8.8亿参数,同样遵循Apache许可证,训练数据为4.5万小时。
- Fish Speech:大约5亿参数,使用CC-BY-NC-SA许可证,训练数据高达100万小时。
评论0