蚂蚁集团 inclusionAI 团队近期正式发布了 Ming-omni-tts,这是一款设计简洁、运行高效的统一音频生成模型。它不仅可以在单一框架内合成高质量的语音,还能同时生成音乐与各类环境声音,并支持对声音属性的精确控制,在多项评测指标上达到了业界领先水平。
- GitHub:https://github.com/inclusionAI/Ming-omni-tts
- Demo:https://modelscope.cn/studios/antsipan/ming-uniaudio-demo
Ming-omni-tts 采用了团队自研的 12.5Hz 连续分词器,并搭配逐块压缩技术,让模型在保持高音质输出的前提下,大幅提升推理效率,推理帧率可以低至 3.1Hz。与此同时,模型还具备很强的文本正则化能力,能够准确、自然地朗读复杂的数学公式与化学方程式,满足专业内容播报、教育科普等场景的使用需求。

核心能力与技术亮点
- 细粒度声音控制:模型支持通过简单命令精确控制语速、音高、音量、情感和方言。值得注意的是,其对粤语方言控制的准确率高达 93%,情感控制准确率达到 46.7%,超越了 CosyVoice3。
- 智能声音设计:拥有 100 多种优质内置音色,并支持通过自然语言描述进行零样本声音设计。其在 Instruct-TTS-Eval-zh 基准上的表现与 Qwen3-TTS 相当。
- 沉浸式统一生成:业界首个在单通道中联合生成语音、环境音和音乐的自回归模型。基于定制的 12.5Hz 连续分词器和 DiT 头架构,提供无缝的“身临其境”听觉体验。
- 高效推理:引入了“逐块”压缩策略,将大语言模型推理帧率降低至 3.1Hz。这显著减少了延迟,并在保持自然度和音频细节的同时,实现了播客风格的音频生成。
- 专业文本正则化:模型能够准确解析和叙述复杂格式,包括数学表达式和化学方程式,确保专业应用场景下的输出自然。
核心架构优化
与其他音频辅助大语言模型相比,Ming-omni-tts 的关键优化如下:
- 统一连续音频分词器:我们提出了一种基于连续 VAE 的分词器,将语音、音乐和通用音频以 12.5 Hz 的帧率整合到一个统一的潜在空间中,在音频重建和各种下游合成基准上取得了有竞争力的结果。

- 用于语音、音乐和声音生成的统一音频语言模型:我们提出了一个统一的端到端音频语言模型,该模型采用单一的大语言模型主干来联合执行语音、音乐和通用声音的生成。为了增强音频质量,架构中增加了扩散头。此外,我们采用了基于补丁的生成策略,补丁大小为 4,回顾历史长度为 32,从而在局部声学细节和长程结构连贯性之间实现了最佳平衡。

全面评测结果
团队在多个权威评测集上对 Ming-omni-tts 进行了系统对比,覆盖零样本 TTS、语音属性控制、情感生成、方言生成、播客生成、声音设计、背景音乐生成等多个维度。
在零样本语音克隆任务中,Ming-omni-tts-16.8B-A3B 在中文测试集上的词错误率仅为 0.83%,优于 SeedTTS、GLM-TTS、CosyVoice3 等多个主流模型。
在语音属性控制上,模型在语速、音量、音高的综合指令成功率平均可达 92% 以上,同时保持极低的错误率和较高的音色相似度。
在情感控制方面,模型在 CV3-Eval 情感测试集上的平均准确率达到 76.7%,在中性情感集上也达到 46.7%,显著优于多款同类模型。
在方言生成上,模型在多方言评测集上均展现出强大的控制能力,粤语相关评测集准确率最高可达 96.3%,字符错误率大幅优于对比方案。
在播客 TTS 任务中,Ming-omni-tts-16.8B-A3B 在 ZipVoice-Dia-zh 测试集上的字符错误率低至 1.84%,音质评分同样处于行业前列。
此外,模型在声音设计、背景音乐生成、通用环境音生成等任务上均取得领先结果。在文本正则化上,模型在专业区域的字符错误率仅 1.97%,与 Gemini-2.5 Pro 相当。
模型下载
目前,Ming-omni-tts 系列模型已全面开源,包括分词器、轻量级 0.5B 版本以及高性能 16.8B 版本,开发者可以在 Huggingface 和 ModelScope 平台直接下载使用,覆盖从轻量部署到工业级高性能生成的各类场景。
| 模型 | 下载 |
|---|---|
| Ming-omni-tts-tokenizer-12Hz | 🤗 HuggingFace · 🤖 ModelScope |
| Ming-omni-tts-0.5B | 🤗 HuggingFace · 🤖 ModelScope |
| Ming-omni-tts-16.8B-A3B | 🤗 HuggingFace · 🤖 ModelScope |
| Ming-omni-tta-0.5B | 🤗 HuggingFace · 🤖 ModelScope |




![ComfyUI已支持 FLUX.2 [klein]:4B 模型实现 1.2 秒本地图像生成与编辑](https://pic.sd114.wiki/wp-content/uploads/2026/01/1768500082-1768500082-FLUX.2-klein-4.webp~tplv-o4t1hxlaqv-image.image)










