OmniVoice：小米 K2-FSA 团队开源 600+ 语言零样本 TTS，一句话复刻全球声音

语音模型3天前发布小马良

11 0

OmniVoice 是由 小米 K2-Fsa 团队 最新推出的文本转语音（TTS）模型。它打破了传统 TTS 的语言壁垒，支持超过 600 种语言（包括大量低资源语言和方言），并凭借创新的 扩散语言模型架构，实现了业界领先的零样本声音克隆能力和极致的推理速度。

项目主页：https://zhu-han.github.io/omnivoice
GitHub：https://github.com/k2-fsa/OmniVoice
模型：https://huggingface.co/k2-fsa/OmniVoice
Demo：https://huggingface.co/spaces/k2-fsa/OmniVoice

这不仅是一个语音合成工具，更是一个旨在“让每种语言都能被听见”的全球性语音基础设施。无论是复刻亲人声音、制作多语言有声书，还是为虚拟角色设计独特嗓音，OmniVoice 都能以惊人的自然度和效率完成任务。

OmniVoice：小米 K2-FSA 团队开源 600+ 语言零样本 TTS，一句话复刻全球声音

核心亮点：重新定义语音合成

1. 600+ 语言覆盖，全球第一

OmniVoice 是目前支持语言最广泛的零样本 TTS 模型。

广泛兼容：涵盖全球主流语言、少数民族语言及方言。
低资源突破：即使对于训练数据极少的稀有语言，也能凭借大语言模型的泛化能力，生成清晰、自然的语音。
多语言混合：完美支持单句内多语言混合朗读，无缝切换，无口音干扰。

2. 极致声音克隆与降噪

零样本克隆：仅需 3-10 秒 的参考音频，即可精准复刻说话人的音色、语调和情感。
智能降噪：内置强大的音频净化能力。即使参考音频包含背景噪音、混响或录音瑕疵，OmniVoice 也能自动过滤，生成干净、专业的录音室级音质。

3. 声音设计 (Voice Design)

无需参考音频，直接通过文本指令“捏”出一个声音：

属性控制：指定性别、年龄、音调、口音、方言，甚至特殊状态（如耳语、激动、悲伤）。
创意无限：为游戏 NPC、虚拟主播或有声读物创造独一无二的专属嗓音。

4. 扩散架构 + 极速推理

单阶段非自回归 (NAR)：摒弃了传统的“文本→语义→声学”复杂流水线，直接将文本映射到多码本声学令牌。
扩散语言模型：基于 Qwen3-0.6B 初始化，结合全码本随机掩码策略，既保留了 LLM 的语言理解力，又具备扩散模型的高质量生成能力。
性能怪兽：实时因子 (RTF) 低至 0.025，意味着生成速度比实时播放快 40 倍，轻松应对大规模批量合成任务。

技术原理：极简即最强

OmniVoice 的成功源于其大胆而简洁的架构设计：

数据基石：整理了 58.1 万小时 的开源多语言音频数据，覆盖 600+ 语言，并进行了严格的清洗和修复。
架构革新：
- 直接映射：Text → Acoustic Tokens，减少中间环节的信息损失和误差累积。
- LLM 初始化：利用预训练大语言模型（Qwen3）的强大语言能力，确保生僻字、多音字和多语言语境下的发音准确性。
- 全码本随机掩码：在训练时随机遮盖部分声学令牌，迫使模型学习全局上下文依赖，显著提升生成质量和鲁棒性。
多维控制：在训练过程中引入噪声数据、属性标签和音素标注，赋予模型降噪、音色设计和精准发音控制的能力。

性能表现：全面超越

在多项权威基准测试中，OmniVoice 展现了统治级的实力：

维度	表现	对比优势
中英效果	SOTA (State-of-the-Art)	相似度、自然度、清晰度均超越 ElevenLabs v2 等商业标杆
多语言覆盖	24 种 / 102 种语言测试	平均表现碾压现有开源及闭源模型，尤其在低资源语言上优势巨大
抗噪能力	极强	在嘈杂参考音频下，生成音质依然纯净，远超同类模型
推理速度	RTF 0.025	比实时快 40 倍，适合高并发、实时交互场景

语音模型 # OmniVoice # TTS

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

语音模型 # ThinkSound # 多模态视频-音频生成

9个月前

02190

英伟达发布 Audio Flamingo 3：全球首个支持 10 分钟音频理解的开源模型

英伟达发布 Audio Flamingo 3：全球首个支持 10 分钟音频理解的开源模型

语音模型 # Audio Flamingo 3 # 英伟达 # 音频理解模型

9个月前

05500

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

语音模型 # Kyutai # Unmute # 语音模型

10个月前

01660

阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD：自然语言指令即可实现“FreeStyle”语音与场景生成

阿里通义发布 Fun-CosyVoice3.5 与 Fun-AudioGen-VD：自然语言指令即可实现“FreeStyle”语音与场景生成

语音模型 # Fun-AudioGen-VD # Fun-CosyVoice3.5 # 阿里通义

1个月前

0440

暂无评论

none

暂无评论...