ComfyUI-AceMusic:多语言AI音乐生成节点,19种语言写歌+完整歌曲结构控制

插件2天前发布 小马良
6 0

ComfyUI-AceMusic 是基于 ACE-Step 1.5 开发的 ComfyUI 自定义节点,专注实现多语言带歌词完整歌曲生成,支持 19 种语言(含中文、英语、日语、韩语等),将 ACE-Step 1.5 核心能力完整封装为节点化工作流,适配本地部署与生产级音乐创作场景。

核心亮点

  • 完整 ACE-Step 1.5 集成:全球首个将 ACE-Step 1.5 全功能落地为 ComfyUI 节点的套件,共 15 个功能节点,覆盖生成、编辑、微调全流程。
  • 模块化节点架构:拆分 Settings、Lyrics、Caption 独立节点,无组件顺序依赖,工作流逻辑清晰、可读性强,便于复用与二次修改。
  • 跨平台高兼容:替换 torchaudio 为 soundfile/scipy 后端,完美支持 Windows 系统及 Python 3.13+ 版本,解决跨环境兼容性问题。
  • 生产级稳定性:内置输入验证、参数自动回退机制,避免运行时报错;支持批量生成与异常容错,适配长期稳定运行。
  • 生态互通:与 HeartMuLa 节点无缝衔接,可组合构建混合 AI 音乐工作流,兼容主流音乐生成插件生态。
ComfyUI-AceMusic:多语言AI音乐生成节点,19种语言写歌+完整歌曲结构控制

核心功能特性

1. 多语言歌词生成

支持 19 种语言生成带人声的完整歌曲,核心语言品质分级:

  • 优秀:英语(en)、中文(zh)、日语(ja)
  • 很好:韩语(ko)、西班牙语(es)
    其余语言均支持基础生成,满足多语种创作需求。

2. 歌曲结构精细化控制

通过标准段落标记定义歌曲结构,支持完整歌曲范式:

段落标记功能说明
[Intro]开场器乐/人声引子
[Verse]主歌段落
[Pre-Chorus]副歌过渡段
[Chorus]副歌/高潮核心段
[Bridge]对比转折段落
[Outro]结尾收尾段
[Instrumental]纯器乐段落

3. 风格与参数精准调控

  • 风格标签体系:支持流派、人声、情绪、节奏、乐器多维度标签组合,精准控制音乐风格。
    • 流派:pop、rock、electronic、jazz、c-pop、mandopop 等;
    • 人声:female vocal、male vocal、duet、choir、instrumental;
    • 情绪:energetic、melancholic、romantic、dreamy 等;
    • 乐器:piano、guitar、drums、erhu、pipa 等。
      示例标签组合:mandopop, female vocal, romantic, piano, emotional ballad
  • 时长与参数:支持最长 240 秒(4 分钟)连续音频生成,可自定义 BPM、采样步数、语言等核心参数。

4. 全链路音频编辑

覆盖从生成到二次修改的全流程,支持 5 大核心编辑功能:

  • Cover:现有音频风格转换(Audio2Music);
  • Repaint:音频指定片段重生成;
  • Retake:现有音频变体创作;
  • Extend:音频首尾内容扩展;
  • Edit:保留旋律前提下修改标签/歌词(FlowEdit)。

5. 模型与微调支持

  • 自动下载并缓存 ACE-Step 官方模型,存储路径:~/.cache/ace-step/checkpoints/
  • 支持 LoRA 微调适配器加载,适配特殊风格、音色定制化需求。

完整节点列表(15 个核心节点)

节点名称核心功能
Model Loader下载、加载并缓存 ACE-Step 基础模型
Settings配置生成参数(时长、语言、BPM、步数等)
Generator文本+歌词驱动音乐生成(Text2Music 核心节点)
Lyrics Input专用歌词输入节点,支持段落标记解析
Caption Input风格/流派标签专用输入节点
Cover音频风格转换(Audio2Audio)
Repaint音频局部片段重生成
Retake现有音频变体生成
Extend音频首尾内容扩展
Edit保留旋律的标签/歌词修改(FlowEdit)
Conditioning参数整合为 Conditioning 条件对象
Generator (from Cond)基于 Conditioning 对象生成音乐
Load LoRA加载 LoRA 微调适配器
Understand从现有音频提取元数据(风格、结构、参数)
Create Sample自然语言查询转生成参数

安装教程

方式一:ComfyUI Manager 安装(推荐)

  1. 打开 ComfyUI,进入 ComfyUI Manager 面板;
  2. 搜索节点名称:ComfyUI-AceMusic
  3. 点击安装,等待依赖自动下载完成,重启 ComfyUI 生效。

方式二:手动源码安装

  1. 进入 ComfyUI 自定义节点目录:
    cd ComfyUI/custom_nodes
    
  2. 克隆项目仓库:
    git clone https://github.com/hiroki-abe-58/ComfyUI-AceMusic.git
    
  3. 安装节点依赖:
    cd ComfyUI-AceMusic
    pip install -r requirements.txt
    
  4. 安装 ACE-Step 1.5 核心库:
    pip install git+https://github.com/ace-step/ACE-Step.git
    
  5. 重启 ComfyUI,节点自动加载。

模型下载

首次使用节点时,模型会自动从 Hugging Face 下载至本地缓存目录,无需手动操作;若下载失败,可手动下载模型文件放入 ~/.cache/ace-step/checkpoints/

快速开始(基础工作流)

  1. 加载模型:添加 AceMusic Model Loader 节点,选择运行设备(cuda 优先,无 GPU 选 cpu);
  2. 配置参数:添加 AceMusic Settings 节点,设置歌曲时长(如 180 秒)、语言(zh 中文)、BPM(如 120);
  3. 输入歌词:添加 AceMusic Lyrics Input 节点,输入带段落标记的歌词,示例:
    [Verse]
    走在空旷的街道上
    想着你和我的过往
    
    [Chorus]
    我们属于彼此
    从现在到永远
    
  4. 设置风格:添加 AceMusic Caption Input 节点,输入风格标签,如 pop, female vocal, energetic
  5. 连接生成:将 Model Loader、Settings、Lyrics Input、Caption Input 节点连接至 AceMusic Generator
  6. 预览输出:Generator 输出端连接 Preview Audio 节点,点击运行,生成完成后可直接播放音频。

示例工作流可直接加载项目内 workflow/AceMusic_Lyrics_v3.json 文件,快速复用。

硬件要求与性能

显存要求

  • 普通模式:≥8GB 显存,全速生成,适配 RTX 3090/4090/5090、A100 等;
  • CPU Offload 模式:≈4GB 显存,生成速度较慢,适配低显存设备。

生成性能(27 步采样,1 分钟音频)

设备型号RTF 倍率生成耗时
RTX 5090~50x~1.2 秒
RTX 409034.48x1.74 秒
A10027.27x2.20 秒
RTX 309012.76x4.70 秒
M2 Max2.27x26.43 秒

使用提示

  1. 歌词输入需严格遵循段落标记格式,避免无标记纯文本,否则结构解析异常;
  2. 风格标签建议 3-5 个组合,过多标签会导致生成风格混乱;
  3. 低显存设备优先开启 CPU Offload,避免显存溢出;
  4. 生成长音频(≥3 分钟)时,建议降低采样步数,平衡速度与质量。
© 版权声明

相关文章

暂无评论

none
暂无评论...