面壁智能发布 VoxCPM1.5：6.25Hz 标记率降低计算开销，支持高质量声音克隆

语音模型4个月前发布小马良

31 0

2025 年 12 月 5 日，面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本，它在保留上下文感知语音生成与零样本声音克隆能力的基础上，通过两项关键技术改进，显著提升了音频质量、推理效率与可定制性。

GitHub：https://github.com/OpenBMB/VoxCPM
模型：https://huggingface.co/openbmb/VoxCPM1.5
ComfyUI插件：https://huggingface.co/openbmb/VoxCPM1.5

核心升级：更高保真，更低开销

🔊 AudioVAE 采样率：16kHz → 44.1kHz

支持生成 CD 级音频质量（44.1kHz），保留更多高频细节；
在使用高质量参考音频时，声音克隆更自然、语音合成更清晰；
注意：输出质量仍依赖提示语音质量——低质输入无法通过模型“修复”。

⚡ 标记率：12.5Hz → 6.25Hz

通过将 LocEnc 与 LocDiT 模块的补丁大小从 2 扩展至 4，语言模型处理频率减半；
实际收益：
- 生成 1 秒音频仅需 6.25 个标记（原为 12.5）；
- 计算量显著降低，为长语音生成和更大模型训练奠定基础；
- 实时因子（RTF）保持稳定或略有改善，尽管参数量因网络深度增加而小幅上升。

模型总参数量略有增加，但因标记数减半，整体推理效率更高。

面壁智能发布 VoxCPM1.5：6.25Hz 标记率降低计算开销，支持高质量声音克隆

全面支持微调：全参数 + LoRA

VoxCPM1.5 同时开放全参数微调（SFT），赋能用户：

基于自有语音数据训练个性化声音模型；
在垂直领域（如客服、播客、有声书）构建专属语音合成系统；
通过 LoRA 实现低成本、低显存的快速适配。

微调指南已随模型发布，包含完整训练脚本与示例。

稳定性改进与现存挑战

针对社区反馈的稳定性问题，VoxCPM1.5 已优化：

✅ 已修复：

音频开头/结尾的噪音伪影（通过推理逻辑与数据优化）；
长语音生成中的部分不连贯问题（得益于 6.25Hz 标记率）。

⚠️ 仍在优化：

极短文本（如 "hello"）的合成稳定性；
复杂情感语音在自回归生成中的错误累积（尤其长语音）；
音量波动、语速突变等细节控制。

面壁智能表示将持续分析长语音生成机制，并在后续版本中系统性优化。

未来路线图（2026 Q1 起）

🌍 多语言 TTS：扩展至中英文以外的语言（欢迎社区提需求）；
🎯 指令可控语音生成：通过自然语言控制情感、音色、韵律等属性；
🎵 通用音频基座：探索统一生成语音、音乐、音效的通用模型（长期愿景）。

下一版本计划于 2026 年第一季度发布，将包含重大功能更新。

语音模型 # VoxCPM1.5 # 面壁智能

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

语音模型 # Nemotron-Speech-Streaming-En-0.6B # 英伟达 # 语音识别

3个月前

0290

HeartMuLa：开源音乐基础模型家族，支持歌词识别、高保真生成与细粒度控制

HeartMuLa：开源音乐基础模型家族，支持歌词识别、高保真生成与细粒度控制

语音模型 # HeartMuLa # 音乐模型

2个月前

02190

KokoClone：极速实时多语言语音克隆系统，基于 Kokoro-ONNX 驱动

KokoClone：极速实时多语言语音克隆系统，基于 Kokoro-ONNX 驱动

语音模型 # KokoClone # Kokoro-ONNX

3周前

0190

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

语音模型 # Fish Audio # OpenAudio S1-mini # TTS 模型

10个月前

07310

暂无评论

none

暂无评论...