开源版Suno！ComfyUI已原生支持音乐生成模型ACE-Step

764 0

ACE-Step是由中国团队阶跃星辰（StepFun）与ACE Studio联合开发的开源音乐生成基础大模型，旨在为音乐创作者提供高效、灵活且高质量的音乐生成与编辑工具。该模型采用Apache-2.0许可证发布，可免费商用。（PS：本文来自官方文档）

ACE-Step 作为一个强大的音乐生成基座，提供了丰富的扩展能力。通过 LoRA、ControlNet 等微调技术，开发者可以根据实际需求对模型进行定制化训练。无论是音频编辑、歌声合成、伴奏制作、声音克隆还是风格转换等应用场景，ACE-Step 都能提供稳定可靠的技术支持。这种灵活的架构设计大大简化了音乐 AI 应用的开发流程，让更多创作者能够快速将 AI 技术应用到音乐创作中。

目前 ACE-Step 已经发布相关的训练代码，包括 LoRA 模型训练等，对应 ControlNet 的训练代码也将在未来陆续发布，你可以访问他们的Github 来了解更多详情。（相关：音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐）

ACE-Step ComfyUI 文本到音频生成工作流示例

1、工作流及相关模型下载

点击下面的按钮下载对应的工作流文件，拖入 ComfyUI 中即可加载对应的工作流信息，对应工作流已包含模型下载信息。

模型：https://huggingface.co/Comfy-Org/ACE-Step_ComfyUI_repackaged
工作流：https://github.com/Comfy-Org/example_workflows/tree/main/audio/ace-step
网盘下载：https://www.123865.com/s/hyQyTd-gJHDv 提取码:Vi7R

你也可以手动下载ace_step_v1_3.5b.safetensors 后保存到 ComfyUI/models/checkpoints 文件夹下

2、按步骤完成工作流的运行

确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词，如果你不知道该输入哪些歌词
在EmptyAceStepLatentAudio的second调整数值即可控制音乐生成时长
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
等待内容生成返回结果后，你可在 Save Audio 节点中查看生成的音频，你可以点击播放试听，对应的音频也会被保存至 ComfyUI/output/audio （由Save Audio节点决定子目录名称）。

PS：虽然ACE-Step支持多语言，但在 ComfyUI 中支持并不完善，因此需要你将歌词转换为拼音，你可以直接用AI聊天助手帮你转换。

ACE-Step ComfyUI 音频到音频工作流

你可以像图生图工作流一样，输入一段音乐，使用下面的工作流来达到重新对音乐采样生成，同样，你也可以通过控制 Ksampler 的 denoise 来调整和原始音频的区别程度

1、工作流文件下载

从上面的链接下载对应的工作流文件，拖入 ComfyUI 中即可加载对应的工作流信息

2、按步骤完成工作流的运行

确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
在 LoadAudio 节点上传你需要用于音频重新编辑的音乐（可以使用本文文本到音频工作流生成的结果）
在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词，如果你不知道该输入哪些歌词
修改 Ksampler 节点的 denoise 参数，来调整采样过程中添加的噪声来调整与原始音频的相似程度，（越小与原始音频越相似，如果设置为 1.00则可以近似认为没有音频输入）
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
等待内容生成返回结果后，你可在 Save Audio 节点中查看生成的音频，你可以点击播放试听，对应的音频也会被保存至 ComfyUI/output/audio （由Save Audio节点决定子目录名称）。

相应的你也可以实现 ACE-Step 项目页面的歌词修改编辑功能，将原始的歌词进行修改调整，来达到改变音频的效果。

ACE-Step 提示词指南

ACE 的提示词目前使用的有两个，一个是 tags 一个是 lyrics。

tags：主要用来描述音乐的风格、场景等, 和我们平常其它生成的 prompt 类似，主要描述音频整体的风格和要求，使用英文逗号分隔
lyrics：主要用来描述歌词，支持歌词结构标签，如 [verse]（主歌）、[chorus]（副歌）和 [bridge]（过渡段）来区分歌词的不同部分，也可以在纯音乐情况下输入乐器名称

对应的 tags 和 lyrics 在 ACE-Step 模型主页中可以找到丰富的示例,你可以参考对应示例来尝试对应的提示词，本文档的提示词指南基于项目做了一些整理，以便让你能够快速尝试组合，来达到最想要的效果

tags标签(prompt)

主流音乐风格

使用简短标签组合，来生成特定风格的音乐

electronic（电子音乐）
rock（摇滚）
pop（流行）
funk（放克）
soul（灵魂乐）
cyberpunk（赛博朋克）
Acid jazz（酸爵士）
electro（电子）
em（电子音乐）
soft electric drums（软电鼓）
melodic（旋律）

场景类型

结合具体使用场景和氛围，生成符合对应氛围的音乐

background music for parties（派对背景音乐）
radio broadcasts（电台广播音乐）
workout playlists（健身播放列表音乐）

乐器元素

saxophone,
azz（萨克斯风、爵士）
piano, violin（钢琴、小提琴）

人声类型

female voice（女声）
male voice（男声）
clean vocals（纯净人声）

专业用于

使用音乐中常用的一些专业的用词，来精准控制音乐效果

110 bpm（每分钟节拍数为110）
fast tempo（快节奏）
slow tempo（慢节奏）
loops（循环片段）
fills（填充音）
acoustic guitar（木吉他）
electric bass（电贝斯）

歌词（lyrics）

歌词结构标签

[outro]
[verse]
[chorus]
[bridge]

多语言支持

ACE-Step V1 是支持多语言的，实际使用的时候 ACE-Step 会获取到对应的不同语言转换后的英文字母，然后进行音乐生成。
在 ComfyUI 中我们并没有完全实现全部多语言到英文字母的转换，目前仅实现了日语平假名和片假名字符所以如果你需要使用多语言来进行相关的音乐生成，你需要首先将对应的语言转换成英文字母，然后在对应 lyrics 开头输入对应语言代码的缩写，比如中文[zh] 韩语 [ko] 等

比如：