面壁智能发布 VoxCPM2:20亿参数、无离散 Tokenizer 的开源语音合成新标杆

语音模型17小时前发布 小马良
7 0

面壁智能 (ModelBest) 正式发布了 VoxCPM2,一款基于连续表征(Continuous Representation)的多语言语音合成模型。作为 VoxCPM 系列的最新迭代,VoxCPM2 基于 MiniCPM-4 基座构建,拥有 20 亿参数,在超过 200 万小时 的多语种音频数据上训练而成。

  • 项目主页:https://openbmb.github.io/voxcpm2-demopage
  • GitHub:https://github.com/OpenBMB/VoxCPM
  • 模型:https://huggingface.co/openbmb/VoxCPM2
  • Demo:https://huggingface.co/spaces/openbmb/VoxCPM-Demo

VoxCPM2 的核心突破在于其 Tokenizer-Free(无离散分词器) 架构,通过端到端的扩散自回归机制直接生成连续语音表征, bypassing 传统 TTS 中常见的离散编码瓶颈,实现了更自然、更具表现力且高保真的语音合成。

面壁智能发布 VoxCPM2:20亿参数、无离散 Tokenizer 的开源语音合成新标杆

面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆

核心亮点

1. 真正的多语言与方言支持

  • 30+9 语言覆盖:支持 30 种全球主流语言(英、中、日、韩、法、德、西等)及 9 种中国方言(粤语、四川话、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话)。
  • 零样本语言适应:无需额外的语言标签(Language ID),模型能根据输入文本自动识别并切换至对应的发音规则,实现无缝多语言混合合成。

2. 创意音色设计 (Voice Design)

  • 自然语言描述:无需参考音频,只需通过文本描述(如“一位年轻的男性,声音低沉且带有磁性,语速缓慢,情绪悲伤”),即可凭空创造出独一无二的全新音色。
  • 细粒度控制:支持对性别、年龄、音色特质、情绪状态、语速等进行精细化调控。

3. 高保真可控声音克隆

  • 风格叠加:在克隆参考音色的基础上,可通过指令叠加情感、语速和表现力控制(例如:“用这个声音,但更加兴奋且快速”)。
  • 极致克隆 (Zero-Shot Cloning):提供参考音频及其对应文本,模型能精准捕捉说话人的细微特征(如呼吸、口音、语调习惯),实现近乎完美的复刻。
  • 无缝续写:支持基于参考音频进行内容续写,保持音色和韵律的高度一致性。

4. 原生 48kHz 高质量音频

  • 超分能力内置:即使输入仅为 16kHz 的参考音频,模型也能通过 AudioVAE V2 的非对称编解码设计,直接输出 48kHz 的高保真音频,无需后处理超分步骤。
  • 听感自然:消除了传统离散 Tokenizer 带来的量化噪声,语音更加平滑、真实。

5. 实时流式合成

  • 极速推理:在 NVIDIA RTX 4090 上,实时因子 (RTF) 低至 ~0.3
  • Nano-VLLM 加速:结合面壁智能自家的 Nano-VLLM 推理引擎,RTF 可进一步降低至 ~0.13,满足实时交互场景需求。

技术架构优势

特性传统 TTS (Discrete)VoxCPM2 (Continuous)
表征方式离散 Token (如 Codec)连续向量 (Continuous Embedding)
信息损失存在量化误差,细节丢失无损保留,高保真还原
架构复杂度需额外训练 Codec/Vocoder端到端,简化 pipeline
表现力受限于 Token 词汇表无限细腻,情感表达更丰富
延迟较高 (多阶段推理)低延迟,支持流式输出

支持语言列表

全球语言 (30种)

阿拉伯语、缅甸语、中文 (普通话)、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语。

中国方言 (9种)

四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。

© 版权声明

相关文章

暂无评论

none
暂无评论...