ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联合开发的开源音乐生成基础大模型,旨在为音乐创作者提供高效、灵活且高质量的音乐生成与编辑工具。该模型采用Apache-2.0许可证发布,可免费商用。(PS:本文来自官方文档)
ACE-Step 作为一个强大的音乐生成基座,提供了丰富的扩展能力。通过 LoRA、ControlNet 等微调技术,开发者可以根据实际需求对模型进行定制化训练。 无论是音频编辑、歌声合成、伴奏制作、声音克隆还是风格转换等应用场景,ACE-Step 都能提供稳定可靠的技术支持。 这种灵活的架构设计大大简化了音乐 AI 应用的开发流程,让更多创作者能够快速将 AI 技术应用到音乐创作中。
目前 ACE-Step 已经发布相关的训练代码,包括 LoRA 模型训练等,对应 ControlNet 的训练代码也将在未来陆续发布,你可以访问他们的Github 来了解更多详情。(相关:音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐)

ACE-Step ComfyUI 文本到音频生成工作流示例
1、 工作流及相关模型下载
点击下面的按钮下载对应的工作流文件,拖入 ComfyUI 中即可加载对应的工作流信息,对应工作流已包含模型下载信息。
- 模型:https://huggingface.co/Comfy-Org/ACE-Step_ComfyUI_repackaged
- 工作流:https://github.com/Comfy-Org/example_workflows/tree/main/audio/ace-step
- 网盘下载:https://www.123865.com/s/hyQyTd-gJHDv 提取码:Vi7R
你也可以手动下载ace_step_v1_3.5b.safetensors 后保存到 ComfyUI/models/checkpoints 文件夹下
2、按步骤完成工作流的运行

- 确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
- 在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
- 在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词,如果你不知道该输入哪些歌词
- 在EmptyAceStepLatentAudio的second调整数值即可控制音乐生成时长
- 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
- 等待内容生成返回结果后,你可在 Save Audio 节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至 ComfyUI/output/audio (由Save Audio节点决定子目录名称)。
PS:虽然ACE-Step支持多语言,但在 ComfyUI 中支持并不完善,因此需要你将歌词转换为拼音,你可以直接用AI聊天助手帮你转换。
ACE-Step ComfyUI 音频到音频工作流
你可以像图生图工作流一样,输入一段音乐,使用下面的工作流来达到重新对音乐采样生成,同样,你也可以通过控制 Ksampler 的 denoise 来调整和原始音频的区别程度
1、工作流文件下载
从上面的链接下载对应的工作流文件,拖入 ComfyUI 中即可加载对应的工作流信息
2、 按步骤完成工作流的运行

- 确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
- 在 LoadAudio 节点上传你需要用于音频重新编辑的音乐(可以使用本文文本到音频工作流生成的结果)
- 在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
- 在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词,如果你不知道该输入哪些歌词
- 修改 Ksampler 节点的 denoise 参数,来调整采样过程中添加的噪声来调整与原始音频的相似程度,(越小与原始音频越相似,如果设置为 1.00则可以近似认为没有音频输入)
- 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
- 等待内容生成返回结果后,你可在 Save Audio 节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至 ComfyUI/output/audio (由Save Audio节点决定子目录名称)。
相应的你也可以实现 ACE-Step 项目页面的歌词修改编辑功能,将原始的歌词进行修改调整,来达到改变音频的效果。
ACE-Step 提示词指南
ACE 的提示词目前使用的有两个,一个是 tags 一个是 lyrics。
- tags: 主要用来描述音乐的风格、场景等, 和我们平常其它生成的 prompt 类似,主要描述音频整体的风格和要求,使用英文逗号分隔
- lyrics: 主要用来描述歌词,支持歌词结构标签,如 [verse](主歌)、[chorus](副歌)和 [bridge](过渡段)来区分歌词的不同部分,也可以在纯音乐情况下输入乐器名称
对应的 tags 和 lyrics 在 ACE-Step 模型主页 中可以找到丰富的示例,你可以参考对应示例来尝试对应的提示词,本文档的提示词指南基于项目做了一些整理,以便让你能够快速尝试组合,来达到最想要的效果
tags标签(prompt)
主流音乐风格
使用简短标签组合,来生成特定风格的音乐
- electronic(电子音乐)
- rock(摇滚)
- pop(流行)
- funk(放克)
- soul(灵魂乐)
- cyberpunk(赛博朋克)
- Acid jazz(酸爵士)
- electro(电子)
- em(电子音乐)
- soft electric drums(软电鼓)
- melodic(旋律)
场景类型
结合具体使用场景和氛围,生成符合对应氛围的音乐
- background music for parties(派对背景音乐)
- radio broadcasts(电台广播音乐)
- workout playlists(健身播放列表音乐)
乐器元素
- saxophone,
- azz(萨克斯风、爵士)
- piano, violin(钢琴、小提琴)
人声类型
- female voice(女声)
- male voice(男声)
- clean vocals(纯净人声)
专业用于
使用音乐中常用的一些专业的用词,来精准控制音乐效果
- 110 bpm(每分钟节拍数为110)
- fast tempo(快节奏)
- slow tempo(慢节奏)
- loops(循环片段)
- fills(填充音)
- acoustic guitar(木吉他)
- electric bass(电贝斯)
歌词(lyrics)
歌词结构标签
- [outro]
- [verse]
- [chorus]
- [bridge]
多语言支持
- ACE-Step V1 是支持多语言的,实际使用的时候 ACE-Step 会获取到对应的不同语言转换后的英文字母,然后进行音乐生成。
- 在 ComfyUI 中我们并没有完全实现全部多语言到英文字母的转换,目前仅实现了日语平假名和片假名字符 所以如果你需要使用多语言来进行相关的音乐生成,你需要首先将对应的语言转换成英文字母,然后在对应 lyrics 开头输入对应语言代码的缩写,比如中文[zh] 韩语 [ko] 等
比如:
[zh]ni hao
[ko]an nyeong
PS:在上面已经说了需要转换成拼音,歌词转换成拼音即可,无需添加[zh]
目前 ACE-Step 支持了 19 种语言,但下面十种语言的支持会更好一些:
- English
- Chinese: [zh]
- Russian: [ru]
- Spanish: [es]
- Japanese: [ja]
- German: [de]
- French: [fr]
- Portuguese: [pt]
- Italian: [it]
- Korean: [ko]