面壁智能 (ModelBest) 正式发布了 VoxCPM2,一款基于连续表征(Continuous Representation)的多语言语音合成模型。作为 VoxCPM 系列的最新迭代,VoxCPM2 基于 MiniCPM-4 基座构建,拥有 20 亿参数,在超过 200 万小时 的多语种音频数据上训练而成。
- 项目主页:https://openbmb.github.io/voxcpm2-demopage
- GitHub:https://github.com/OpenBMB/VoxCPM
- 模型:https://huggingface.co/openbmb/VoxCPM2
- Demo:https://huggingface.co/spaces/openbmb/VoxCPM-Demo
VoxCPM2 的核心突破在于其 Tokenizer-Free(无离散分词器) 架构,通过端到端的扩散自回归机制直接生成连续语音表征, bypassing 传统 TTS 中常见的离散编码瓶颈,实现了更自然、更具表现力且高保真的语音合成。

核心亮点
1. 真正的多语言与方言支持
- 30+9 语言覆盖:支持 30 种全球主流语言(英、中、日、韩、法、德、西等)及 9 种中国方言(粤语、四川话、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话)。
- 零样本语言适应:无需额外的语言标签(Language ID),模型能根据输入文本自动识别并切换至对应的发音规则,实现无缝多语言混合合成。
2. 创意音色设计 (Voice Design)
- 自然语言描述:无需参考音频,只需通过文本描述(如“一位年轻的男性,声音低沉且带有磁性,语速缓慢,情绪悲伤”),即可凭空创造出独一无二的全新音色。
- 细粒度控制:支持对性别、年龄、音色特质、情绪状态、语速等进行精细化调控。
3. 高保真可控声音克隆
- 风格叠加:在克隆参考音色的基础上,可通过指令叠加情感、语速和表现力控制(例如:“用这个声音,但更加兴奋且快速”)。
- 极致克隆 (Zero-Shot Cloning):提供参考音频及其对应文本,模型能精准捕捉说话人的细微特征(如呼吸、口音、语调习惯),实现近乎完美的复刻。
- 无缝续写:支持基于参考音频进行内容续写,保持音色和韵律的高度一致性。
4. 原生 48kHz 高质量音频
- 超分能力内置:即使输入仅为 16kHz 的参考音频,模型也能通过 AudioVAE V2 的非对称编解码设计,直接输出 48kHz 的高保真音频,无需后处理超分步骤。
- 听感自然:消除了传统离散 Tokenizer 带来的量化噪声,语音更加平滑、真实。
5. 实时流式合成
- 极速推理:在 NVIDIA RTX 4090 上,实时因子 (RTF) 低至 ~0.3。
- Nano-VLLM 加速:结合面壁智能自家的 Nano-VLLM 推理引擎,RTF 可进一步降低至 ~0.13,满足实时交互场景需求。
技术架构优势
| 特性 | 传统 TTS (Discrete) | VoxCPM2 (Continuous) |
|---|---|---|
| 表征方式 | 离散 Token (如 Codec) | 连续向量 (Continuous Embedding) |
| 信息损失 | 存在量化误差,细节丢失 | 无损保留,高保真还原 |
| 架构复杂度 | 需额外训练 Codec/Vocoder | 端到端,简化 pipeline |
| 表现力 | 受限于 Token 词汇表 | 无限细腻,情感表达更丰富 |
| 延迟 | 较高 (多阶段推理) | 低延迟,支持流式输出 |
支持语言列表
全球语言 (30种)
阿拉伯语、缅甸语、中文 (普通话)、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语。
中国方言 (9种)
四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















