面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

2025 年 12 月 5 日,面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本,它在保留上下文感知语音生成与零样本声音克隆能力的基础上,通过两项关键技术改进,显著提升了音频质量、推理效率与可定制性

核心升级:更高保真,更低开销

🔊 AudioVAE 采样率:16kHz → 44.1kHz

  • 支持生成 CD 级音频质量(44.1kHz),保留更多高频细节;
  • 在使用高质量参考音频时,声音克隆更自然、语音合成更清晰;
  • 注意:输出质量仍依赖提示语音质量——低质输入无法通过模型“修复”。

⚡ 标记率:12.5Hz → 6.25Hz

  • 通过将 LocEnc 与 LocDiT 模块的补丁大小从 2 扩展至 4,语言模型处理频率减半;
  • 实际收益
    • 生成 1 秒音频仅需 6.25 个标记(原为 12.5);
    • 计算量显著降低,为长语音生成和更大模型训练奠定基础;
    • 实时因子(RTF)保持稳定或略有改善,尽管参数量因网络深度增加而小幅上升。

模型总参数量略有增加,但因标记数减半,整体推理效率更高

面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

全面支持微调:全参数 + LoRA

VoxCPM1.5 同时开放全参数微调(SFT),赋能用户:

  • 基于自有语音数据训练个性化声音模型
  • 在垂直领域(如客服、播客、有声书)构建专属语音合成系统
  • 通过 LoRA 实现低成本、低显存的快速适配。

微调指南已随模型发布,包含完整训练脚本与示例。

稳定性改进与现存挑战

针对社区反馈的稳定性问题,VoxCPM1.5 已优化:

✅ 已修复

  • 音频开头/结尾的噪音伪影(通过推理逻辑与数据优化);
  • 长语音生成中的部分不连贯问题(得益于 6.25Hz 标记率)。

⚠️ 仍在优化

  • 极短文本(如 "hello")的合成稳定性;
  • 复杂情感语音在自回归生成中的错误累积(尤其长语音);
  • 音量波动、语速突变等细节控制。

面壁智能表示将持续分析长语音生成机制,并在后续版本中系统性优化。

未来路线图(2026 Q1 起)

  • 🌍 多语言 TTS:扩展至中英文以外的语言(欢迎社区提需求);
  • 🎯 指令可控语音生成:通过自然语言控制情感、音色、韵律等属性;
  • 🎵 通用音频基座:探索统一生成语音、音乐、音效的通用模型(长期愿景)。

下一版本计划于 2026 年第一季度发布,将包含重大功能更新。

© 版权声明

相关文章

暂无评论

none
暂无评论...