阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型(支持 qwen-tts-latest 或 qwen-tts-2025-05-22)。该模型在语音合成领域实现了多项关键突破。

强大训练基础,打造自然语音体验
Qwen-TTS 基于超过 300万小时 的大规模语料库进行训练,其合成语音在自然度和表现力方面已达到类人水平。该模型能够根据输入文本智能调整语调、节奏和情绪变化,使生成语音更加贴近真实说话场景。
此外,Qwen-TTS 还支持三种中文方言的合成:
- 北京话
- 上海话
- 四川话
为多地域语言交互提供了更强的支持能力。
多音色选择,满足多样化需求
目前,Qwen-TTS 提供了七种中英双语音色,适用于不同风格和用途的语音输出:
| 音色 | 类型 |
|---|---|
| Cherry | 女声 |
| Ethan | 男声 |
| Chelsie | 女声 |
| Serena | 女声 |
| Dylan | 北京话 |
| Jada | 上海话 |
| Sunny | 四川话 |
未来还将推出更多语言选项和风格化音色,进一步拓展适用场景。
性能评估:媲美真人发音
在 SeedTTS-Eval 评测集上的测试显示,Qwen-TTS 在多个核心指标上表现出色,接近甚至超越当前主流语音合成模型:
| 音色 | 中文 WER ↓ | 英文 WER ↓ | 混合难度 WER ↓ | 中文 SIM ↑ | 英文 SIM ↑ | 混合难度 SIM ↑ |
|---|---|---|---|---|---|---|
| Chelsie | 1.256 | 2.004 | 6.171 | 0.658 | 0.473 | 0.662 |
| Serena | 1.495 | 2.206 | 7.394 | 0.804 | 0.508 | 0.803 |
| Ethan | 1.489 | 1.969 | 6.754 | 0.777 | 0.558 | 0.779 |
| Cherry | 1.209 | 1.967 | 6.069 | 0.799 | 0.664 | 0.801 |
- WER(词错误率)越低表示识别准确率越高;
- SIM(音色相似度)越高表示合成语音与目标音色越接近。
从数据来看,Cherry 和 Serena 表现出最强的综合能力,尤其在音色还原方面接近真人水平。
应用场景广泛,助力多种业务落地
Qwen-TTS 凭借其高自然度、多语言支持及流式输出能力,可广泛应用于以下场景:
- 在线教育:自动生成课程讲解语音,提升学习效率;
- 电商直播:快速生成带货话术音频,辅助主播运营;
- 智能客服:实现更自然的语音交互体验;
- 无障碍服务:为视障人群提供高质量语音阅读;
- 虚拟助手 / 数字人:增强语音表现力,提升交互沉浸感。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















