ComfyUI已原生支持音乐生成模型ACE-Step

工作流1周前发布 小马良
79 0

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联合开发的​​开源音乐生成基础大模型​​,旨在为音乐创作者提供高效、灵活且高质量的音乐生成与编辑工具。该模型采用Apache-2.0许可证发布,可免费商用。(PS:本文来自官方文档

ACE-Step 作为一个强大的音乐生成基座,提供了丰富的扩展能力。通过 LoRA、ControlNet 等微调技术,开发者可以根据实际需求对模型进行定制化训练。 无论是音频编辑、歌声合成、伴奏制作、声音克隆还是风格转换等应用场景,ACE-Step 都能提供稳定可靠的技术支持。 这种灵活的架构设计大大简化了音乐 AI 应用的开发流程,让更多创作者能够快速将 AI 技术应用到音乐创作中。

目前 ACE-Step 已经发布相关的训练代码,包括 LoRA 模型训练等,对应 ControlNet 的训练代码也将在未来陆续发布,你可以访问他们的Github 来了解更多详情。(相关:音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐

ComfyUI已原生支持音乐生成模型ACE-Step

ACE-Step ComfyUI 文本到音频生成工作流示例

1、 工作流及相关模型下载

点击下面的按钮下载对应的工作流文件,拖入 ComfyUI 中即可加载对应的工作流信息,对应工作流已包含模型下载信息。

你也可以手动下载ace_step_v1_3.5b.safetensors 后保存到 ComfyUI/models/checkpoints 文件夹下

2、按步骤完成工作流的运行

ComfyUI已原生支持音乐生成模型ACE-Step
  1. 确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
  2. 在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
  3. 在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词,如果你不知道该输入哪些歌词
  4. 在EmptyAceStepLatentAudio的second调整数值即可控制音乐生成时长
  5. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
  6. 等待内容生成返回结果后,你可在 Save Audio 节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至 ComfyUI/output/audio (由Save Audio节点决定子目录名称)。

PS:虽然ACE-Step支持多语言,但在 ComfyUI 中支持并不完善,因此需要你将歌词转换为拼音,你可以直接用AI聊天助手帮你转换。

ACE-Step ComfyUI 音频到音频工作流

你可以像图生图工作流一样,输入一段音乐,使用下面的工作流来达到重新对音乐采样生成,同样,你也可以通过控制 Ksampler 的 denoise 来调整和原始音频的区别程度

1、工作流文件下载

从上面的链接下载对应的工作流文件,拖入 ComfyUI 中即可加载对应的工作流信息

2、 按步骤完成工作流的运行

ComfyUI已原生支持音乐生成模型ACE-Step
  1. 确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
  2. 在 LoadAudio 节点上传你需要用于音频重新编辑的音乐(可以使用本文文本到音频工作流生成的结果)
  3. 在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
  4. 在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词,如果你不知道该输入哪些歌词
  5. 修改 Ksampler 节点的 denoise 参数,来调整采样过程中添加的噪声来调整与原始音频的相似程度,(越小与原始音频越相似,如果设置为 1.00则可以近似认为没有音频输入)
  6. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
  7. 等待内容生成返回结果后,你可在 Save Audio 节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至 ComfyUI/output/audio (由Save Audio节点决定子目录名称)。

相应的你也可以实现 ACE-Step 项目页面的歌词修改编辑功能,将原始的歌词进行修改调整,来达到改变音频的效果。

ACE-Step 提示词指南

ACE 的提示词目前使用的有两个,一个是 tags 一个是 lyrics。

  • tags: 主要用来描述音乐的风格、场景等, 和我们平常其它生成的 prompt 类似,主要描述音频整体的风格和要求,使用英文逗号分隔
  • lyrics: 主要用来描述歌词,支持歌词结构标签,如 [verse](主歌)、[chorus](副歌)和 [bridge](过渡段)来区分歌词的不同部分,也可以在纯音乐情况下输入乐器名称

对应的 tags 和 lyrics 在 ACE-Step 模型主页 中可以找到丰富的示例,你可以参考对应示例来尝试对应的提示词,本文档的提示词指南基于项目做了一些整理,以便让你能够快速尝试组合,来达到最想要的效果

tags标签(prompt)

主流音乐风格

使用简短标签组合,来生成特定风格的音乐

  • electronic(电子音乐)
  • rock(摇滚)
  • pop(流行)
  • funk(放克)
  • soul(灵魂乐)
  • cyberpunk(赛博朋克)
  • Acid jazz(酸爵士)
  • electro(电子)
  • em(电子音乐)
  • soft electric drums(软电鼓)
  • melodic(旋律)

场景类型

结合具体使用场景和氛围,生成符合对应氛围的音乐

  • background music for parties(派对背景音乐)
  • radio broadcasts(电台广播音乐)
  • workout playlists(健身播放列表音乐)

乐器元素

  • saxophone,
  • azz(萨克斯风、爵士)
  • piano, violin(钢琴、小提琴)

人声类型

  • female voice(女声)
  • male voice(男声)
  • clean vocals(纯净人声)

专业用于

使用音乐中常用的一些专业的用词,来精准控制音乐效果

  • 110 bpm(每分钟节拍数为110)
  • fast tempo(快节奏)
  • slow tempo(慢节奏)
  • loops(循环片段)
  • fills(填充音)
  • acoustic guitar(木吉他)
  • electric bass(电贝斯)

歌词(lyrics)

歌词结构标签

  • [outro]
  • [verse]
  • [chorus]
  • [bridge]

多语言支持

  • ACE-Step V1 是支持多语言的,实际使用的时候 ACE-Step 会获取到对应的不同语言转换后的英文字母,然后进行音乐生成。
  • 在 ComfyUI 中我们并没有完全实现全部多语言到英文字母的转换,目前仅实现了日语平假名和片假名字符 所以如果你需要使用多语言来进行相关的音乐生成,你需要首先将对应的语言转换成英文字母,然后在对应 lyrics 开头输入对应语言代码的缩写,比如中文[zh] 韩语 [ko] 等

比如:

[zh]ni hao
[ko]an nyeong

PS:在上面已经说了需要转换成拼音,歌词转换成拼音即可,无需添加[zh]

目前 ACE-Step 支持了 19 种语言,但下面十种语言的支持会更好一些:

  • English
  • Chinese: [zh]
  • Russian: [ru]
  • Spanish: [es]
  • Japanese: [ja]
  • German: [de]
  • French: [fr]
  • Portuguese: [pt]
  • Italian: [it]
  • Korean: [ko]
© 版权声明

相关文章

暂无评论

none
暂无评论...