HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

如果你曾幻想过——只需输入一段歌词和一句描述(如“一首欢快的流行歌,吉他伴奏,副歌要有电子音效”),AI 就能生成一首结构完整、音质高保真的歌曲——那么 HeartMuLa 项目正将这一愿景变为现实。

由 HeartMuLa 项目组推出的这一开源音乐基础模型家族,首次将音乐理解、对齐、编解码与生成整合为统一框架,包含四个核心组件:

  • HeartCLAP:音频-文本对齐模型
  • HeartTranscriptor:歌词识别模型
  • HeartCodec:低帧率高保真音乐编解码器
  • HeartMuLa:基于 LLM 的可控歌曲生成模型

它们共同构成一个可扩展、可复现、完全开源的音乐 AI 生态系统。

HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

四大组件,各司其职

HeartCLAP:让音乐与文字“对上话”

通过对比学习,将音乐片段与文本描述(如“忧郁的钢琴独奏”)映射到同一语义空间。
→ 支持跨模态检索(如“找一首像周杰伦《晴天》的歌”)和自动打标。

HeartTranscriptor:精准识别复杂音乐中的歌词

基于 Whisper 微调,专为真实音乐场景优化(如混响、背景人声、多语种)。
→ 在 SSLD-200 和 HeartBeats-ASR-Bench 上达到最低词错率。

HeartCodec:12.5Hz 的高保真“音乐分词器”

传统音频编解码器帧率高(如 50–100Hz),导致生成效率低。
HeartCodec 以仅 12.5Hz 的低帧率,仍能保留声学细节并捕捉长程结构,显著提升自回归生成速度。
→ 客观指标(VISQOL、FAD)和主观听感均优于现有方案。

HeartMuLa:真正可控的歌曲生成

这是整个系统的“大脑”。它接受三种输入:

  • 文本风格描述(如“复古合成器流行”)
  • 歌词内容
  • 参考音频(用于风格迁移)

并支持两种模式:

  • 细粒度控制:分别指定前奏、主歌、副歌的风格(如“副歌加入失真吉他”)
  • 短视频配乐:快速生成 15–30 秒的高质量背景音乐

模型采用分层 Transformer 架构:全局层建模歌曲结构,局部层填充细节,确保旋律连贯且富有表现力。

技术亮点

特性说明
开源完整所有模型、训练代码、评估基准均公开
多语言支持支持中、英、日、韩等多语种歌词与风格描述
高效生成HeartCodec 的低帧率设计使推理速度提升 3–4 倍
用户可控不是“随机生成”,而是按指令分段构建歌曲

实验结果

  • HeartMuLa 在自建多语言基准 HeartBeats 上,
    • 音乐质量、风格一致性、歌词清晰度全面超越开源(MusicGen、AudioLDM2)和闭源模型
    • 英语歌词音素错误率(PER)低至 0.09
  • HeartCLAP 在 WikiMT-X 跨模态检索任务中,
    • 显著优于 Laion-CLAP、MuQ-MuLan 等基线
  • HeartCodec 在重建保真度上,
    • VISQOL 分数达 4.2+(接近原始音频)

应用场景

  • 音乐创作辅助:作曲人快速试听不同风格版本
  • 短视频配乐:一键生成符合情绪的背景音乐
  • 游戏/影视动态配乐:根据剧情实时生成适配 BGM
  • 音乐教育:展示“爵士 vs 摇滚”在结构与配器上的差异
  • 多模态内容生产:结合视频、文本自动生成同步音轨
© 版权声明

相关文章

暂无评论

none
暂无评论...