面壁智能发布 VoxCPM2：20亿参数、无离散 Tokenizer 的开源语音合成新标杆

面壁智能 (ModelBest) 正式发布了 VoxCPM2，一款基于连续表征（Continuous Representation）的多语言语音合成模型。作为 VoxCPM 系列的最新迭代，VoxCPM2 基于 MiniCPM-4 基座构建，拥有 20 亿参数，在超过 200 万小时 的多语种音频数据上训练而成。

项目主页：https://openbmb.github.io/voxcpm2-demopage
GitHub：https://github.com/OpenBMB/VoxCPM
模型：https://huggingface.co/openbmb/VoxCPM2
Demo：https://huggingface.co/spaces/openbmb/VoxCPM-Demo

VoxCPM2 的核心突破在于其 Tokenizer-Free（无离散分词器） 架构，通过端到端的扩散自回归机制直接生成连续语音表征， bypassing 传统 TTS 中常见的离散编码瓶颈，实现了更自然、更具表现力且高保真的语音合成。

面壁智能发布 VoxCPM2：20亿参数、无离散 Tokenizer 的开源语音合成新标杆

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

核心亮点

1. 真正的多语言与方言支持

30+9 语言覆盖：支持 30 种全球主流语言（英、中、日、韩、法、德、西等）及 9 种中国方言（粤语、四川话、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话）。
零样本语言适应：无需额外的语言标签（Language ID），模型能根据输入文本自动识别并切换至对应的发音规则，实现无缝多语言混合合成。

2. 创意音色设计 (Voice Design)

自然语言描述：无需参考音频，只需通过文本描述（如“一位年轻的男性，声音低沉且带有磁性，语速缓慢，情绪悲伤”），即可凭空创造出独一无二的全新音色。
细粒度控制：支持对性别、年龄、音色特质、情绪状态、语速等进行精细化调控。

3. 高保真可控声音克隆

风格叠加：在克隆参考音色的基础上，可通过指令叠加情感、语速和表现力控制（例如：“用这个声音，但更加兴奋且快速”）。
极致克隆 (Zero-Shot Cloning)：提供参考音频及其对应文本，模型能精准捕捉说话人的细微特征（如呼吸、口音、语调习惯），实现近乎完美的复刻。
无缝续写：支持基于参考音频进行内容续写，保持音色和韵律的高度一致性。

4. 原生 48kHz 高质量音频

超分能力内置：即使输入仅为 16kHz 的参考音频，模型也能通过 AudioVAE V2 的非对称编解码设计，直接输出 48kHz 的高保真音频，无需后处理超分步骤。
听感自然：消除了传统离散 Tokenizer 带来的量化噪声，语音更加平滑、真实。

5. 实时流式合成

极速推理：在 NVIDIA RTX 4090 上，实时因子 (RTF) 低至 ~0.3。
Nano-VLLM 加速：结合面壁智能自家的 Nano-VLLM 推理引擎，RTF 可进一步降低至 ~0.13，满足实时交互场景需求。

技术架构优势

特性	传统 TTS (Discrete)	VoxCPM2 (Continuous)
表征方式	离散 Token (如 Codec)	连续向量 (Continuous Embedding)
信息损失	存在量化误差，细节丢失	无损保留，高保真还原
架构复杂度	需额外训练 Codec/Vocoder	端到端，简化 pipeline
表现力	受限于 Token 词汇表	无限细腻，情感表达更丰富
延迟	较高 (多阶段推理)	低延迟，支持流式输出