文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

3,542 0

Kokoro是一款先进的文本转语音（TTS）模型，以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro，其模型大小不超过300M，却能生成高质量的音频输出。特别值得一提的是，在NVIDIA T4 GPU上，仅需4.5秒即可生成长达2分25秒的语音内容。

模型：https://huggingface.co/hexgrad/Kokoro-82M
Demo：https://huggingface.co/spaces/hexgrad/Kokoro-TTS

自2024年12月25日发布0.19版本以来，Kokoro就以Apache 2.0许可证的形式完全以fp32精度开放给公众使用。而最近的一次更新是在今年1月12日，推出了0.23版本，不仅支持了更多的语言和声音选项，同时也继续沿用了Apache 2.0许可证，并保持了原有的参数规模架构。

PS：目前该模型不支持中英文混合以及数字，如下图，其中的英文和数字都无法转成语音。

行业领先的表现

在TTS Spaces Arena这一专门针对单语音竞技场设置的评估环境中，Kokoro凭借更少的参数和数据量实现了更高的Elo评分，稳居排行榜首：

Kokoro v0.19：采用8200万参数，以Apache许可证发布，训练所用音频数据少于100小时。
XTTS v2：具有4.67亿参数，采用CPML许可证，训练数据超过1万小时。
Edge TTS：由微软提供，为专有模型。
MetaVoice：拥有12亿参数，以Apache许可证发布，训练数据达10万小时。
Parler Mini：具备8.8亿参数，同样遵循Apache许可证，训练数据为4.5万小时。
Fish Speech：大约5亿参数，使用CC-BY-NC-SA许可证，训练数据高达100万小时。

语音模型 # Kokoro-82M # TTS

文章版权归作者所有，未经允许请勿转载。

别再盲目搜索了！2026语音克隆指南，本地开源模型与在线平台实测盘点

AI合集 # TTS # 语音克隆

3周前

0320

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

语音模型 # Meta # Omnilingual ASR # 语音识别

5个月前

01220

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

语音模型 # ThinkSound # 多模态视频-音频生成

9个月前

02180

微软开源 VibeVoice-ASR：支持60分钟长音频的端到端语音转写模型

语音模型 # VibeVoice-ASR # 微软

2个月前

0240

暂无评论

暂无评论...

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

行业领先的表现

开源多模态视频语音大模型VITA-1.5：基于Qwen2.5模型，实现接近实时的视觉和语音交互能力

Llasa：基于LLaMA语言模型的先进文本转语音（TTS）系统

相关文章

别再盲目搜索了！2026语音克隆指南，本地开源模型与在线平台实测盘点

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

微软开源 VibeVoice-ASR：支持60分钟长音频的端到端语音转写模型

暂无评论

文章

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

ComfyUI-NAG 插件正式上线：为扩散模型带来高效负向引导能力

限时免费体验一周！小米凌晨官宣三款大模型：MiMo-V2 系列正式亮相，1M 上下文比肩 Opus 4.6

腾讯微信「ClawBot」插件正式上线：扫码一键接入 OpenClaw，支持语音/图片/文件全交互

S.H.I.T

OpenMAIC

Alaya Code

ITELLOU

抓虾吧

Jellyfish AI短剧工厂

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

行业领先的表现

开源多模态视频语音大模型VITA-1.5： 基于Qwen2.5模型，实现接近实时的视觉和语音交互能力

Llasa：基于LLaMA语言模型的先进文本转语音（TTS）系统

相关文章

文章

标签云

网址

S.H.I.T

OpenMAIC

Alaya Code

ITELLOU

抓虾吧

Jellyfish AI短剧工厂

开源多模态视频语音大模型VITA-1.5：基于Qwen2.5模型，实现接近实时的视觉和语音交互能力