HeartMuLa：开源音乐基础模型家族，支持歌词识别、高保真生成与细粒度控制

语音模型2个月前发布小马良

189 0

如果你曾幻想过——只需输入一段歌词和一句描述（如“一首欢快的流行歌，吉他伴奏，副歌要有电子音效”），AI 就能生成一首结构完整、音质高保真的歌曲——那么 HeartMuLa 项目正将这一愿景变为现实。

项目主页：https://heartmula.github.io
GitHub：https://github.com/HeartMuLa/heartlib
模型：Hugging Face|魔塔

由 HeartMuLa 项目组推出的这一开源音乐基础模型家族，首次将音乐理解、对齐、编解码与生成整合为统一框架，包含四个核心组件：

HeartCLAP：音频-文本对齐模型
HeartTranscriptor：歌词识别模型
HeartCodec：低帧率高保真音乐编解码器
HeartMuLa：基于 LLM 的可控歌曲生成模型

它们共同构成一个可扩展、可复现、完全开源的音乐 AI 生态系统。

HeartMuLa：开源音乐基础模型家族，支持歌词识别、高保真生成与细粒度控制

四大组件，各司其职

HeartCLAP：让音乐与文字“对上话”

通过对比学习，将音乐片段与文本描述（如“忧郁的钢琴独奏”）映射到同一语义空间。
→ 支持跨模态检索（如“找一首像周杰伦《晴天》的歌”）和自动打标。

HeartTranscriptor：精准识别复杂音乐中的歌词

基于 Whisper 微调，专为真实音乐场景优化（如混响、背景人声、多语种）。
→ 在 SSLD-200 和 HeartBeats-ASR-Bench 上达到最低词错率。

HeartCodec：12.5Hz 的高保真“音乐分词器”

传统音频编解码器帧率高（如 50–100Hz），导致生成效率低。
HeartCodec 以仅 12.5Hz 的低帧率，仍能保留声学细节并捕捉长程结构，显著提升自回归生成速度。
→ 客观指标（VISQOL、FAD）和主观听感均优于现有方案。

HeartMuLa：真正可控的歌曲生成

这是整个系统的“大脑”。它接受三种输入：

文本风格描述（如“复古合成器流行”）
歌词内容
参考音频（用于风格迁移）

并支持两种模式：

细粒度控制：分别指定前奏、主歌、副歌的风格（如“副歌加入失真吉他”）
短视频配乐：快速生成 15–30 秒的高质量背景音乐

模型采用分层 Transformer 架构：全局层建模歌曲结构，局部层填充细节，确保旋律连贯且富有表现力。

技术亮点

特性	说明
开源完整	所有模型、训练代码、评估基准均公开
多语言支持	支持中、英、日、韩等多语种歌词与风格描述
高效生成	HeartCodec 的低帧率设计使推理速度提升 3–4 倍
用户可控	不是“随机生成”，而是按指令分段构建歌曲

实验结果

HeartMuLa 在自建多语言基准 HeartBeats 上，
- 音乐质量、风格一致性、歌词清晰度全面超越开源（MusicGen、AudioLDM2）和闭源模型
- 英语歌词音素错误率（PER）低至 0.09
HeartCLAP 在 WikiMT-X 跨模态检索任务中，
- 显著优于 Laion-CLAP、MuQ-MuLan 等基线
HeartCodec 在重建保真度上，
- VISQOL 分数达 4.2+（接近原始音频）

应用场景

音乐创作辅助：作曲人快速试听不同风格版本
短视频配乐：一键生成符合情绪的背景音乐
游戏/影视动态配乐：根据剧情实时生成适配 BGM
音乐教育：展示“爵士 vs 摇滚”在结构与配器上的差异
多模态内容生产：结合视频、文本自动生成同步音轨

语音模型 # HeartMuLa # 音乐模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多模态语音交互的端到端大型语音模型 VITA-Audio

多模态语音交互的端到端大型语音模型 VITA-Audio

语音模型 # VITA-Audio # 语音模型

10个月前

02340

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

语音模型 # Magenta RealTime # 音乐生成模型

9个月前

03230

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

语音模型 # TTS # VoxCPM # 面壁智能

6个月前

04960

Vui：轻量级、可本地运行的开源对话语音模型

Vui：轻量级、可本地运行的开源对话语音模型

语音模型 # Vui # 对话语音模型

9个月前

03680

暂无评论

none

暂无评论...