Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

语音模型5个月前发布小马良

249 0

通义实验室近日推出 Qwen3-TTS-Flash，一款面向多场景应用的高性能文本转语音（TTS）模型。该模型现已通过 Qwen API 开放访问，支持自然、流畅且富有表现力的语音生成。

API：https://help.aliyun.com/zh/model-studio/qwen-tts
Demo：https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

Qwen3-TTS-Flash 专注于解决跨语言、跨方言和复杂文本下的语音合成挑战，在稳定性、音色一致性与响应速度方面达到当前开源及公开服务中的领先水平。

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

核心能力概览

✅ 多音色 & 多语言统一模型

提供 17 种预设音色（涵盖男女声、年龄、语调差异）；
每种音色均支持 10 种语言，包括：
- 中文（普通话及多种方言）
- 英语（美式、英式、区域口音）
- 法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语

所有语言与音色由单一模型统一生成，无需切换模型或加载额外组件，降低部署复杂度。

✅ 方言支持全面覆盖

针对中文使用者，模型原生支持以下方言语音输出：

普通话
粤语、闽南语、吴语
四川话、北京话、南京话、天津话、陕西话

适用于地方媒体、教育、客服机器人等需要地域化表达的场景。

✅ 高语音稳定性与音色相似度

在多个权威测试集上，Qwen3-TTS-Flash 表现优于主流商业模型：

测试项目	对比结果
中英文稳定性（seed-tts-eval test set）	超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview，达到 SOTA
多语言 WER（词错误率）（MiniMax multilingual test set）	中文、英文、意大利语、法语均达 SOTA，显著低于竞品
说话人相似度（英文/意/法语）	显著高于 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview

这意味着语音更少出现卡顿、重复、断句错误，同时保留原始音色特征。

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

✅ 自动语气适配与鲁棒性处理

语气调节：基于上下文自动调整语调、节奏与情感倾向（如陈述、疑问、强调），无需手动标注；
复杂文本鲁棒性强：能正确解析包含数字、缩写、混合中英文、标点异常等多样化输入，提取关键信息并合理朗读。

例如：

“iPhone 16 Pro Max将于9月20日在天猫JD首发，限时折扣¥8,999起。”

模型可准确处理品牌名、价格符号、平台缩写，并保持语义连贯。

✅ 快速响应，低延迟输出

单并发下首包延迟低至 97ms；
支持流式输出，适合实时交互场景（如语音助手、直播字幕配音）；

这一性能使其能够满足高并发、低等待的应用需求。

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

语音模型 # Qwen3-TTS-Flash # 语音合成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SongPrep：腾讯提出自动化歌曲预处理方案，破解AIGC歌曲生成的数据难题

SongPrep：腾讯提出自动化歌曲预处理方案，破解AIGC歌曲生成的数据难题

语音模型 # SongPrep # 腾讯 # 音乐模型

5个月前

01110

Rev推出开源自动语音识别模型Reverb和话者分离模型

Rev推出开源自动语音识别模型Reverb和话者分离模型

语音模型 # Reverb # 话者分离模型 # 语音识别模型

1年前

07520

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

语音模型 # Meta # Omnilingual ASR # 语音识别

3个月前

0720

小米自研声音理解大模型 MiDashengLM-7B 正式开源

小米自研声音理解大模型 MiDashengLM-7B 正式开源

语音模型 # MiDashengLM-7B # 声音理解大模型 # 小米

6个月前

02430

暂无评论

none

暂无评论...