音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

509 0

ACE Studio和阶跃星辰（StepFun）联合推出了一款全新的开源音乐生成基础模型ACE-Step，该模型通过创新的整体架构设计，突破了现有方法的局限性，实现了卓越的性能表现。

GitHub：https://github.com/ace-step/ACE-Step
模型：https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
Demo：https://huggingface.co/spaces/ACE-Step/ACE-Step

为什么 ACE-Step 如此重要？

当前的音乐生成模型面临一个核心问题：不同的方法在性能上各有优劣，但难以兼顾所有关键指标。例如：

基于大语言模型（LLM）的方法（如 Yue、SongGen）在歌词对齐和细节表现上表现出色，但推断速度慢，并且容易产生结构性伪影。
扩散模型（如 DiffRhythm）生成速度快，但在长范围结构连贯性方面存在明显短板。

ACE-Step 通过整合基于扩散的生成、深度压缩自编码器（DCAE） 和轻量级线性变换器，成功弥合了这些差距。此外，它还利用 MERT 和 m-hubert 在训练期间对齐语义表示（REPA），实现快速收敛。最终结果是：

生成速度：在 A100 GPU 上，仅需 20 秒即可合成长达 4 分钟的音乐——比基于 LLM 的基线快 15 倍。
音乐连贯性：在旋律、和声和节奏指标上表现卓越。
歌词对齐：高质量的歌词与音乐同步。
细粒度控制：支持声音克隆、歌词编辑、混音和轨道生成等高级功能。

这种高性能、高灵活性的设计使 ACE-Step 成为音乐生成领域的“稳定扩散”时刻，为未来的音乐创作工具铺平了道路。

核心功能

基线质量

多样化风格与流派：支持所有主流音乐风格，兼容多种描述格式，包括短标签、描述性文本或使用场景。能够生成不同流派的音乐，配备适当的乐器和风格。
多语言支持：支持 19 种语言，其中表现最佳的 10 种语言包括英语、中文、俄语、西班牙语、日语、德语、法语、葡萄牙语、意大利语和韩语。由于数据不平衡，较少使用的语言可能表现不佳。
器乐风格：支持多种流派和风格的器乐生成，能够生成具有适当音色和表现力的真实器乐轨道，并可生成多乐器复杂编排，同时保持音乐连贯性。
声乐技巧：能够以高质量渲染各种声乐风格和技巧，支持不同声乐表达，包括多种演唱技巧和风格。
可控性：
- 变体生成：使用无需训练的推断时优化技术实现。通过流匹配模型生成初始噪声，然后使用 trigFlow 的噪声公式添加额外的正态噪声。用户可调节原始初始噪声与新正态噪声的混合比例，以控制变体程度。
- 重绘：通过为目标音频输入添加噪声并在 ODE 过程中应用掩码约束实现。当输入条件与原始生成变化时，可仅修改特定方面，同时保留其余部分。可与变体生成技术结合，创建风格、歌词或声乐的局部变体。
- 歌词编辑：创新应用流编辑技术，实现局部歌词修改，同时保留旋律、声乐和伴奏。适用于生成内容和上传音频，大幅提升创作可能性。当前限制为一次只能修改小段歌词以避免失真，但可顺序应用多次编辑。

应用场景

Lyric2Vocal (LoRA)：基于纯声乐数据微调的 LoRA，允许直接从歌词生成声乐样本。可用于声乐演示、引导轨道、歌曲创作辅助和声乐编排实验，为词曲作者提供快速测试歌词演唱效果的方法，帮助其更快迭代。
Text2Samples (LoRA)：与 Lyric2Vocal 类似，但微调于纯器乐和样本数据。可根据文本描述生成概念性音乐制作样本，用于快速创建乐器循环、音效和音乐制作元素。
即将推出：
- RapMachine：基于纯说唱数据微调，创建专为说唱生成的 AI 系统。预期功能包括 AI 说唱对战和通过说唱进行叙事表达，说唱具有出色的叙事和表达能力，应用潜力巨大。
- StemGen：基于多轨道数据训练的 controlnet-lora，生成单独的乐器分轨。以参考轨道和指定乐器（或乐器参考音频）为输入，输出与参考轨道互补的乐器分轨，如为长笛旋律创建钢琴伴奏或为吉他主奏添加爵士鼓。
- Singing2Accompaniment：StemGen 的逆过程，从单一声乐轨道生成混合主轨道。以声乐轨道和指定风格为输入，生成完整的声乐伴奏，为任何声乐录音轻松添加专业音效伴奏。

硬件性能

我们在不同硬件设置上评估了 ACE-Step，以下是其吞吐量结果：

设备	27 步	60 步
NVIDIA A100	27.27x	12.27x
NVIDIA RTX 4090	34.48x	15.63x
NVIDIA RTX 3090	12.76x	6.48x
MacBook M2 Max	2.27x	1.03x

我们使用实时因子（RTF）测量 ACE-Step 的性能，值越高表示生成速度越快。例如，27.27x 表示生成 1 分钟音乐仅需 2.2 秒（60/27.27）。性能在单 GPU 上以批量大小 1 和 27 步测量。

用户界面指南

ACE-Step 界面提供多个选项卡，用于不同的音乐生成和编辑任务：

Text2Music 选项卡

输入字段：
- 标签：输入描述性标签、流派或场景描述，以逗号分隔。
- 歌词：输入带有结构标签（如 [verse]、[chorus]、[bridge]）的歌词。
- 音轨时长：设置生成的音频时长（-1 表示随机）。
设置：
- 基本设置：调整推断步数、引导尺度、种子。
- 高级设置：微调调度器类型、CFG 类型、ERG 设置等。
生成：点击“生成”按钮，根据输入创建音乐。