Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

在语音生成技术快速迭代的当下,开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶,凭借音色克隆、音色创造、拟人化语音生成与自然语言指令控制四大核心能力,构建起一套覆盖多场景需求的语音生成工具链。依托自研的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器与 Dual-Track 双轨建模架构,Qwen3-TTS 实现了高效压缩、低延迟流式生成与跨语种高质量语音输出,为全球化应用提供了强大技术支撑。

目前,Qwen3-TTS 全系列模型已在 GitHub 开源,同时支持通过 Qwen API 快速体验,模型包含 1.7B 与 0.6B 两种尺寸,兼顾极致性能与轻量化部署需求。

Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

模型矩阵:双尺寸覆盖多元需求

Qwen3-TTS 提供 1.7B 和 0.6B 两类模型,分别针对“极致性能”与“均衡效率”设计,全面支持 10 种主流语言(中、英、日、韩、德、法、俄、葡萄牙、西班牙、意大利语)及多种方言音色,满足不同场景的开发需求。

1. 1.7B 模型:高性能旗舰之选

模型名称核心功能语种支持流式生成指令控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign基于文本描述定制全新音色10种主流语言
Qwen3-TTS-12Hz-1.7B-CustomVoice目标音色风格控制;内置9款精品音色10种主流语言
Qwen3-TTS-12Hz-1.7B-Base3秒快速音色克隆;支持微调迁移10种主流语言-

2. 0.6B 模型:轻量化高效之选

模型名称核心功能语种支持流式生成指令控制
Qwen3-TTS-12Hz-0.6B-CustomVoice内置9款精品音色,支持风格调整10种主流语言
Qwen3-TTS-12Hz-0.6B-Base3秒快速音色克隆;支持微调迁移10种主流语言-

核心技术特性:四大亮点打造行业领先体验

Qwen3-TTS 的技术优势源于自研编码器、创新架构与智能控制能力的深度融合,具体体现在四个核心维度:

1. 超强语音表征:无损保留声学细节

基于 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,实现对语音信号的高效压缩与高维语义建模,完整保留副语言信息(如语气、停顿、情感)与声学环境特征。搭配轻量级非 DiT 架构,在降低计算开销的同时,实现高保真语音还原,大幅提升生成语音的自然度与真实感。

2. 端到端架构:规避级联误差,提升通用性

采用离散多码本 LM 架构,实现语音全信息端到端建模,彻底摒弃传统“LM+DiT”方案的级联链路,从根源上消除信息瓶颈与误差累积问题。这一设计不仅提升了模型的通用性,还显著优化了生成效率与效果上限。

3. 极致低延迟:单字符触发首包输出

创新的 Dual-Track 混合流式生成架构,让单模型同时兼容流式与非流式生成模式。最快可在输入单个字符后即刻输出音频首包,端到端合成延迟低至 97ms,完全满足实时语音交互(如智能客服、虚拟助手)的严苛延迟要求。

4. 智能语义控制:所想即所听的拟人化表达

支持自然语言指令驱动的多维语音控制,用户可通过文本描述灵活调控音色、情感、韵律等声学属性。同时,模型具备深度上下文理解能力,能根据输入文本的语义自适应调整语气、节奏与情感表达,实现“内容决定风格”的拟人化语音生成效果。

Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

性能实测:多项指标达到 SOTA 水平

Qwen3-TTS 在音色创造、控制、克隆三大核心任务中,均展现出超越同类开源模型的性能,部分指标甚至优于闭源方案:

1. 音色创造任务

Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 基准测试中,指令遵循能力与生成表现力全面超越 MiniMax-Voice-Design 闭源模型,大幅领先其他开源竞品,可精准还原文本描述的音色特征与人设属性。

2. 音色控制任务

Qwen3-TTS-Instruct 具备强大的单人多语言泛化能力,平均词错率低至 2.34%;在保持目标音色不变的前提下,风格控制能力评分达 75.4%;同时支持10分钟长语音生成,中英词错率分别仅为 2.36% 和 2.81%,长文本生成稳定性表现优异。

3. 音色克隆任务

Qwen3-TTS-VoiceClone 在 Seed-tts-eval 测试中,中英文克隆语音的稳定性超越 MiniMax 和 SeedTTS;在 TTS multilingual test set 上,10个语种的平均词错率为 1.835%,说话人相似度达 0.789,超越 MiniMax 和 ElevenLabs;跨语种音色克隆能力同样位居 SOTA,优于 CosyVoice3。

Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

4. Tokenizer 性能:近乎无损的语音重构

在 LibriSpeech test-clean 数据集的语音重构评估中,Qwen-TTS-Tokenizer 关键指标达到行业领先水平:

  • 感知语音质量评估(PESQ):宽带 3.21、窄带 3.68,大幅领先同类 Tokenizer;
  • 短时客观可懂度(STOI):0.96;
  • 语音自然度(UTMOS):4.16;
  • 说话人相似度:0.95,实现近乎无损的说话人信息保留。
Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

典型应用场景:解锁语音生成多元玩法

Qwen3-TTS 的功能特性,适配多样化的语音生成需求,典型应用场景包括:

1. 音色创造:文本描述定制专属声音

通过输入声学属性、人设背景等自然语言描述,即可生成定制化音色。例如输入“温暖治愈的女性声线,语速偏慢,带轻微的江南口音”,模型可精准生成符合描述的语音,满足内容创作、虚拟主播等场景的个性化需求。

2. 音色复用:多轮对话的稳定音色输出

支持将创造的音色持久化存储,在多轮次、多角色的长篇章对话生成中,保持音色的一致性与稳定性,适用于有声书录制、剧本配音等场景。

3. 音色控制:固定音色的风格灵活调整

基于内置的9款精品音色(如苏瑶、福伯、晓东等),通过指令调整语音的情感(如开心、严肃、悲伤)、语速、韵律,实现同一音色的多样化表达。

4. 快速克隆:3秒复刻目标声音

仅需3秒目标人物的语音片段,即可快速克隆音色,支持微调迁移至其他模型,适用于个性化语音助手、客服话术定制等场景。

© 版权声明

相关文章

暂无评论

none
暂无评论...