阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

语音模型9个月前发布小马良

413 0

阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型（支持 qwen-tts-latest 或 qwen-tts-2025-05-22）。该模型在语音合成领域实现了多项关键突破。

强大训练基础，打造自然语音体验

Qwen-TTS 基于超过 300万小时 的大规模语料库进行训练，其合成语音在自然度和表现力方面已达到类人水平。该模型能够根据输入文本智能调整语调、节奏和情绪变化，使生成语音更加贴近真实说话场景。

此外，Qwen-TTS 还支持三种中文方言的合成：

北京话
上海话
四川话

为多地域语言交互提供了更强的支持能力。

多音色选择，满足多样化需求

目前，Qwen-TTS 提供了七种中英双语音色，适用于不同风格和用途的语音输出：

音色	类型
Cherry	女声
Ethan	男声
Chelsie	女声
Serena	女声
Dylan	北京话
Jada	上海话
Sunny	四川话

未来还将推出更多语言选项和风格化音色，进一步拓展适用场景。

性能评估：媲美真人发音

在 SeedTTS-Eval 评测集上的测试显示，Qwen-TTS 在多个核心指标上表现出色，接近甚至超越当前主流语音合成模型：

音色	中文 WER ↓	英文 WER ↓	混合难度 WER ↓	中文 SIM ↑	英文 SIM ↑	混合难度 SIM ↑
Chelsie	1.256	2.004	6.171	0.658	0.473	0.662
Serena	1.495	2.206	7.394	0.804	0.508	0.803
Ethan	1.489	1.969	6.754	0.777	0.558	0.779
Cherry	1.209	1.967	6.069	0.799	0.664	0.801

WER（词错误率）越低表示识别准确率越高；
SIM（音色相似度）越高表示合成语音与目标音色越接近。

从数据来看，Cherry 和 Serena 表现出最强的综合能力，尤其在音色还原方面接近真人水平。

应用场景广泛，助力多种业务落地

Qwen-TTS 凭借其高自然度、多语言支持及流式输出能力，可广泛应用于以下场景：

在线教育：自动生成课程讲解语音，提升学习效率；
电商直播：快速生成带货话术音频，辅助主播运营；
智能客服：实现更自然的语音交互体验；
无障碍服务：为视障人群提供高质量语音阅读；
虚拟助手 / 数字人：增强语音表现力，提升交互沉浸感。

语音模型 # Qwen-TTS

文章版权归作者所有，未经允许请勿转载。

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

1年前

04920

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

语音模型 # Kyutai # Unmute # 语音模型

10个月前

01640

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

语音模型 # Qwen3-TTS-Flash # 语音合成模型

6个月前

03280

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

语音模型 # Fun-Audio-Chat # 通义百聆

3个月前

0290

暂无评论

暂无评论...

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

强大训练基础，打造自然语音体验

多音色选择，满足多样化需求

性能评估：媲美真人发音

应用场景广泛，助力多种业务落地

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

相关文章

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

暂无评论

文章

智谱突袭发布GLM-5.1：编码能力暴涨 30%，直逼 Claude Opus，手把手教你接入 Claude Code 与 OpenClaw

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

美团开源 LongCat-Next：原生多模态新范式，用“离散 Token”统一文本、图像与语音

新阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

新Kimi 会员计费大升级：告别“按次计数”，迎来“统一额度”时代

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

OpenMAIC

ITELLOU

S.H.I.T

Tripo

CoPaw

Accio Work

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

强大训练基础，打造自然语音体验

多音色选择，满足多样化需求

性能评估：媲美真人发音

应用场景广泛，助力多种业务落地

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

相关文章

文章

标签云

网址

OpenMAIC

ITELLOU

S.H.I.T

Tripo

CoPaw

Accio Work