Qwen3-TTS 全家桶开源：支持音色克隆、创造与多语言拟人语音

115 0

在语音生成技术快速迭代的当下，开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶，凭借音色克隆、音色创造、拟人化语音生成与自然语言指令控制四大核心能力，构建起一套覆盖多场景需求的语音生成工具链。依托自研的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器与 Dual-Track 双轨建模架构，Qwen3-TTS 实现了高效压缩、低延迟流式生成与跨语种高质量语音输出，为全球化应用提供了强大技术支撑。

项目主页：https://qwen.ai/blog?id=qwen3tts-0115
GitHub：https://github.com/QwenLM/Qwen3-TTS
Hugging Face：https://huggingface.co/collections/Qwen/qwen3-tts
魔塔：https://modelscope.cn/collections/Qwen/Qwen3-TTS
Hugging Face Demo：https://huggingface.co/spaces/Qwen/Qwen3-TTS
魔塔DEMO：https://modelscope.cn/studios/Qwen/Qwen3-TTS

目前，Qwen3-TTS 全系列模型已在 GitHub 开源，同时支持通过 Qwen API 快速体验，模型包含 1.7B 与 0.6B 两种尺寸，兼顾极致性能与轻量化部署需求。

模型矩阵：双尺寸覆盖多元需求

Qwen3-TTS 提供 1.7B 和 0.6B 两类模型，分别针对“极致性能”与“均衡效率”设计，全面支持 10 种主流语言（中、英、日、韩、德、法、俄、葡萄牙、西班牙、意大利语）及多种方言音色，满足不同场景的开发需求。

1. 1.7B 模型：高性能旗舰之选

模型名称	核心功能	语种支持	流式生成	指令控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign	基于文本描述定制全新音色	10种主流语言	✅	✅
Qwen3-TTS-12Hz-1.7B-CustomVoice	目标音色风格控制；内置9款精品音色	10种主流语言	✅	✅
Qwen3-TTS-12Hz-1.7B-Base	3秒快速音色克隆；支持微调迁移	10种主流语言	✅	-

2. 0.6B 模型：轻量化高效之选

模型名称	核心功能	语种支持	流式生成	指令控制
Qwen3-TTS-12Hz-0.6B-CustomVoice	内置9款精品音色，支持风格调整	10种主流语言	✅	✅
Qwen3-TTS-12Hz-0.6B-Base	3秒快速音色克隆；支持微调迁移	10种主流语言	✅	-

核心技术特性：四大亮点打造行业领先体验

Qwen3-TTS 的技术优势源于自研编码器、创新架构与智能控制能力的深度融合，具体体现在四个核心维度：

1. 超强语音表征：无损保留声学细节

基于 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器，实现对语音信号的高效压缩与高维语义建模，完整保留副语言信息（如语气、停顿、情感）与声学环境特征。搭配轻量级非 DiT 架构，在降低计算开销的同时，实现高保真语音还原，大幅提升生成语音的自然度与真实感。

2. 端到端架构：规避级联误差，提升通用性

采用离散多码本 LM 架构，实现语音全信息端到端建模，彻底摒弃传统“LM+DiT”方案的级联链路，从根源上消除信息瓶颈与误差累积问题。这一设计不仅提升了模型的通用性，还显著优化了生成效率与效果上限。

3. 极致低延迟：单字符触发首包输出

创新的 Dual-Track 混合流式生成架构，让单模型同时兼容流式与非流式生成模式。最快可在输入单个字符后即刻输出音频首包，端到端合成延迟低至 97ms，完全满足实时语音交互（如智能客服、虚拟助手）的严苛延迟要求。

4. 智能语义控制：所想即所听的拟人化表达

支持自然语言指令驱动的多维语音控制，用户可通过文本描述灵活调控音色、情感、韵律等声学属性。同时，模型具备深度上下文理解能力，能根据输入文本的语义自适应调整语气、节奏与情感表达，实现“内容决定风格”的拟人化语音生成效果。

性能实测：多项指标达到 SOTA 水平

Qwen3-TTS 在音色创造、控制、克隆三大核心任务中，均展现出超越同类开源模型的性能，部分指标甚至优于闭源方案：

1. 音色创造任务

Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 基准测试中，指令遵循能力与生成表现力全面超越 MiniMax-Voice-Design 闭源模型，大幅领先其他开源竞品，可精准还原文本描述的音色特征与人设属性。

2. 音色控制任务

Qwen3-TTS-Instruct 具备强大的单人多语言泛化能力，平均词错率低至 2.34%；在保持目标音色不变的前提下，风格控制能力评分达 75.4%；同时支持10分钟长语音生成，中英词错率分别仅为 2.36% 和 2.81%，长文本生成稳定性表现优异。

3. 音色克隆任务

Qwen3-TTS-VoiceClone 在 Seed-tts-eval 测试中，中英文克隆语音的稳定性超越 MiniMax 和 SeedTTS；在 TTS multilingual test set 上，10个语种的平均词错率为 1.835%，说话人相似度达 0.789，超越 MiniMax 和 ElevenLabs；跨语种音色克隆能力同样位居 SOTA，优于 CosyVoice3。