阿里通义项目组更新 Qwen-TTS:合成语音自然度接近人类水平

语音模型5个月前发布 小马良
359 0

阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型(支持 qwen-tts-latest  qwen-tts-2025-05-22)。该模型在语音合成领域实现了多项关键突破。

强大训练基础,打造自然语音体验

Qwen-TTS 基于超过 300万小时 的大规模语料库进行训练,其合成语音在自然度和表现力方面已达到类人水平。该模型能够根据输入文本智能调整语调、节奏和情绪变化,使生成语音更加贴近真实说话场景。

此外,Qwen-TTS 还支持三种中文方言的合成:

  • 北京话
  • 上海话
  • 四川话

为多地域语言交互提供了更强的支持能力。

多音色选择,满足多样化需求

目前,Qwen-TTS 提供了七种中英双语音色,适用于不同风格和用途的语音输出:

音色类型
Cherry女声
Ethan男声
Chelsie女声
Serena女声
Dylan北京话
Jada上海话
Sunny四川话

未来还将推出更多语言选项和风格化音色,进一步拓展适用场景。

性能评估:媲美真人发音

 SeedTTS-Eval 评测集上的测试显示,Qwen-TTS 在多个核心指标上表现出色,接近甚至超越当前主流语音合成模型:

音色中文 WER ↓英文 WER ↓混合难度 WER ↓中文 SIM ↑英文 SIM ↑混合难度 SIM ↑
Chelsie1.2562.0046.1710.6580.4730.662
Serena1.4952.2067.3940.8040.5080.803
Ethan1.4891.9696.7540.7770.5580.779
Cherry1.2091.9676.0690.7990.6640.801
  • WER(词错误率)越低表示识别准确率越高;
  • SIM(音色相似度)越高表示合成语音与目标音色越接近。

从数据来看,Cherry 和 Serena 表现出最强的综合能力,尤其在音色还原方面接近真人水平。

应用场景广泛,助力多种业务落地

Qwen-TTS 凭借其高自然度、多语言支持及流式输出能力,可广泛应用于以下场景:

  • 在线教育:自动生成课程讲解语音,提升学习效率;
  • 电商直播:快速生成带货话术音频,辅助主播运营;
  • 智能客服:实现更自然的语音交互体验;
  • 无障碍服务:为视障人群提供高质量语音阅读;
  • 虚拟助手 / 数字人:增强语音表现力,提升交互沉浸感。
© 版权声明

相关文章

暂无评论

none
暂无评论...