通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner：支持流式、多语言、高并发的语音识别与对齐工具

44 0

Qwen（通义千问）团队正式开源全新一代语音技术方案——Qwen3-ASR系列语音识别模型与Qwen3-ForcedAligner强制对齐模型。该系列包含Qwen3-ASR-1.7B、Qwen3-ASR-0.6B两款语音识别模型，以及Qwen3-ForcedAligner-0.6B强制对齐模型，不仅支持52种语种与方言的识别，更在精度、效率、场景适配性上实现突破，1.7B模型多项场景达SOTA水平，0.6B模型兼顾性能与高吞吐，强制对齐模型精度超越传统方案。此次开源同步释放模型结构、权重及完整推理框架，旨在推动语音识别与理解领域的研究与产业落地。

官方介绍：https://qwen.ai/blog?id=qwen3asr
GitHub：https://github.com/QwenLM/Qwen3-ASR
模型：https://modelscope.cn/collections/Qwen/Qwen3-ASR
Demo：https://modelscope.cn/studios/Qwen/Qwen3-ASR

通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner：支持流式、多语言、高并发的语音识别与对齐工具

开源模型矩阵：覆盖识别与对齐核心需求

Qwen3-ASR系列构建了“高精度+高效率+精准对齐”的完整模型矩阵，三款模型各有侧重，可适配不同场景的技术需求：

模型名称	核心定位	语种支持	方言支持	推理模式	音频种类支持
Qwen3-ASR-1.7B	高精度旗舰款	52种（含中文、英语、粤语、阿拉伯语等30种主流语种，及多类小语种）	22种中文方言/口音（安徽、东北、福建、四川、粤语<香港/广东口音>、吴语、闽南语等）	离线/流式一体化	普通语音、歌唱、带背景音乐的歌声
Qwen3-ASR-0.6B	高效均衡款	同1.7B模型	同1.7B模型	离线/流式一体化	普通语音、歌唱、带背景音乐的歌声
Qwen3-ForcedAligner-0.6B	精准强制对齐	11种主流语种（中文、英语、粤语、法语、德语等）	无	非自回归（NAR）	普通语音

三款模型均基于创新技术架构打造：语音识别模型依托自研AuT语音编码器与Qwen3-Omni基座模型的多模态能力，实现声学特征与语言理解的深度融合；强制对齐模型则采用NAR LLM推理架构，打破传统端到端方案的局限，兼顾精度与效率。

核心特性：全场景适配、高精度与极致效率并存

1. All-in-one全场景覆盖，无需多模型切换

Qwen3-ASR-1.7B与0.6B模型均实现“一模型多能力”，无需额外部署多个模型即可应对复杂需求：

语种层面：支持30种语种的“语种识别+语音识别”双功能，无需提前指定输入语种；
口音层面：覆盖22种中文方言/口音，及多个国家和地区的英文口音，适配地域差异明显的场景；
音频类型层面：不仅支持普通语音，还能精准识别歌唱、带背景音乐的歌声，填补传统ASR在娱乐、创作场景的空白；
长度支持：最长可一次性处理20分钟音频，满足长语音转写（如会议记录、课程录音）需求。

2. 精度与效率双突破，覆盖不同性能需求

Qwen3-ASR系列针对“高精度”与“高效率”两大核心诉求，设计两款差异化模型，兼顾专业场景与高并发场景：

高精度旗舰（1.7B模型）：在中文、英文、方言、歌唱识别等多个场景达到开源SOTA水平，甚至超越部分商用API。具体表现为：
- 英文识别：不仅在公开基准夺冠，在覆盖16个国家口音的内部测试集中，全面优于GPT-4o Transcribe、Gemini系列、Doubao ASR及Whisper-large-v3；
- 多语种识别：20个主流语种的平均字错误率（WER）低于现有开源模型；
- 中文与方言：普通话、粤语及22种方言识别精度领先，方言识别错误率较Doubao-ASR平均降低20%（15.94 vs 19.85）；
- 复杂场景：面对老人/儿童语音、极低信噪比（强噪声）、鬼畜重复等极端场景，仍能稳定输出，保持低错误率；
- 歌唱识别：支持带BGM的中英文歌曲转写，中文WER低至13.91%，英文WER低至14.60%。
高效均衡款（0.6B模型）：在保证识别精度稳健的前提下，重点优化推理效率，适配高并发场景：
- 单并发推理：实现100倍加速比，大幅缩短单条音频处理时间；
- 高并发推理：128并发异步服务场景下，吞吐率达2000倍，仅需10秒钟即可处理超过5小时的音频，适合大规模语音转写需求（如客服录音、音频库整理）。