Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

语音模型3个月前发布 小马良
187 0

通义实验室近日推出 Qwen3-TTS-Flash,一款面向多场景应用的高性能文本转语音(TTS)模型。该模型现已通过 Qwen API 开放访问,支持自然、流畅且富有表现力的语音生成。

Qwen3-TTS-Flash 专注于解决跨语言、跨方言和复杂文本下的语音合成挑战,在稳定性、音色一致性与响应速度方面达到当前开源及公开服务中的领先水平。

Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

核心能力概览

✅ 多音色 & 多语言统一模型

  • 提供 17 种预设音色(涵盖男女声、年龄、语调差异);
  • 每种音色均支持 10 种语言,包括:
    • 中文(普通话及多种方言)
    • 英语(美式、英式、区域口音)
    • 法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语

所有语言与音色由单一模型统一生成,无需切换模型或加载额外组件,降低部署复杂度。

✅ 方言支持全面覆盖

针对中文使用者,模型原生支持以下方言语音输出:

  • 普通话
  • 粤语、闽南语、吴语
  • 四川话、北京话、南京话、天津话、陕西话

适用于地方媒体、教育、客服机器人等需要地域化表达的场景。

✅ 高语音稳定性与音色相似度

在多个权威测试集上,Qwen3-TTS-Flash 表现优于主流商业模型:

测试项目对比结果
中英文稳定性
(seed-tts-eval test set)
超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview,达到 SOTA
多语言 WER(词错误率)
(MiniMax multilingual test set)
中文、英文、意大利语、法语均达 SOTA,显著低于竞品
说话人相似度
(英文/意/法语)
显著高于 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview

这意味着语音更少出现卡顿、重复、断句错误,同时保留原始音色特征。

Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

✅ 自动语气适配与鲁棒性处理

  • 语气调节:基于上下文自动调整语调、节奏与情感倾向(如陈述、疑问、强调),无需手动标注;
  • 复杂文本鲁棒性强:能正确解析包含数字、缩写、混合中英文、标点异常等多样化输入,提取关键信息并合理朗读。

例如:

“iPhone 16 Pro Max将于9月20日在天猫JD首发,限时折扣¥8,999起。”

模型可准确处理品牌名、价格符号、平台缩写,并保持语义连贯。

✅ 快速响应,低延迟输出

  • 单并发下首包延迟低至 97ms
  • 支持流式输出,适合实时交互场景(如语音助手、直播字幕配音);

这一性能使其能够满足高并发、低等待的应用需求。

Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型
© 版权声明

相关文章

暂无评论

none
暂无评论...