音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐

ACE Studio和阶跃星辰(StepFun)联合推出了一款全新的开源音乐生成基础模型ACE-Step,该模型通过创新的整体架构设计,突破了现有方法的局限性,实现了卓越的性能表现。

音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐

为什么 ACE-Step 如此重要?

当前的音乐生成模型面临一个核心问题:不同的方法在性能上各有优劣,但难以兼顾所有关键指标。例如:

  • 基于大语言模型(LLM)的方法(如 Yue、SongGen)在歌词对齐和细节表现上表现出色,但推断速度慢,并且容易产生结构性伪影。
  • 扩散模型(如 DiffRhythm)生成速度快,但在长范围结构连贯性方面存在明显短板。

ACE-Step 通过整合基于扩散的生成深度压缩自编码器(DCAE) 轻量级线性变换器,成功弥合了这些差距。此外,它还利用 MERT 和 m-hubert 在训练期间对齐语义表示(REPA),实现快速收敛。最终结果是:

  • 生成速度:在 A100 GPU 上,仅需 20 秒即可合成长达 4 分钟的音乐——比基于 LLM 的基线快 15 倍。
  • 音乐连贯性:在旋律、和声和节奏指标上表现卓越。
  • 歌词对齐:高质量的歌词与音乐同步。
  • 细粒度控制:支持声音克隆、歌词编辑、混音和轨道生成等高级功能。

这种高性能、高灵活性的设计使 ACE-Step 成为音乐生成领域的“稳定扩散”时刻,为未来的音乐创作工具铺平了道路。

音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐

核心功能

基线质量

  • 多样化风格与流派:支持所有主流音乐风格,兼容多种描述格式,包括短标签、描述性文本或使用场景。能够生成不同流派的音乐,配备适当的乐器和风格。
  • 多语言支持:支持 19 种语言,其中表现最佳的 10 种语言包括英语、中文、俄语、西班牙语、日语、德语、法语、葡萄牙语、意大利语和韩语。由于数据不平衡,较少使用的语言可能表现不佳。
  • 器乐风格:支持多种流派和风格的器乐生成,能够生成具有适当音色和表现力的真实器乐轨道,并可生成多乐器复杂编排,同时保持音乐连贯性。
  • 声乐技巧:能够以高质量渲染各种声乐风格和技巧,支持不同声乐表达,包括多种演唱技巧和风格。
  • 可控性
    • 变体生成:使用无需训练的推断时优化技术实现。通过流匹配模型生成初始噪声,然后使用 trigFlow 的噪声公式添加额外的正态噪声。用户可调节原始初始噪声与新正态噪声的混合比例,以控制变体程度。
    • 重绘:通过为目标音频输入添加噪声并在 ODE 过程中应用掩码约束实现。当输入条件与原始生成变化时,可仅修改特定方面,同时保留其余部分。可与变体生成技术结合,创建风格、歌词或声乐的局部变体。
    • 歌词编辑:创新应用流编辑技术,实现局部歌词修改,同时保留旋律、声乐和伴奏。适用于生成内容和上传音频,大幅提升创作可能性。当前限制为一次只能修改小段歌词以避免失真,但可顺序应用多次编辑。

应用场景

  • Lyric2Vocal (LoRA):基于纯声乐数据微调的 LoRA,允许直接从歌词生成声乐样本。可用于声乐演示、引导轨道、歌曲创作辅助和声乐编排实验,为词曲作者提供快速测试歌词演唱效果的方法,帮助其更快迭代。
  • Text2Samples (LoRA):与 Lyric2Vocal 类似,但微调于纯器乐和样本数据。可根据文本描述生成概念性音乐制作样本,用于快速创建乐器循环、音效和音乐制作元素。
  • 即将推出
    • RapMachine:基于纯说唱数据微调,创建专为说唱生成的 AI 系统。预期功能包括 AI 说唱对战和通过说唱进行叙事表达,说唱具有出色的叙事和表达能力,应用潜力巨大。
    • StemGen:基于多轨道数据训练的 controlnet-lora,生成单独的乐器分轨。以参考轨道和指定乐器(或乐器参考音频)为输入,输出与参考轨道互补的乐器分轨,如为长笛旋律创建钢琴伴奏或为吉他主奏添加爵士鼓。
    • Singing2Accompaniment:StemGen 的逆过程,从单一声乐轨道生成混合主轨道。以声乐轨道和指定风格为输入,生成完整的声乐伴奏,为任何声乐录音轻松添加专业音效伴奏。

硬件性能

我们在不同硬件设置上评估了 ACE-Step,以下是其吞吐量结果:

设备27 步60 步
NVIDIA A10027.27x12.27x
NVIDIA RTX 409034.48x15.63x
NVIDIA RTX 309012.76x6.48x
MacBook M2 Max2.27x1.03x

我们使用实时因子(RTF)测量 ACE-Step 的性能,值越高表示生成速度越快。例如,27.27x 表示生成 1 分钟音乐仅需 2.2 秒(60/27.27)。性能在单 GPU 上以批量大小 1 和 27 步测量。

用户界面指南

ACE-Step 界面提供多个选项卡,用于不同的音乐生成和编辑任务:

Text2Music 选项卡

  • 输入字段
    • 标签:输入描述性标签、流派或场景描述,以逗号分隔。
    • 歌词:输入带有结构标签(如 [verse]、[chorus]、[bridge])的歌词。
    • 音轨时长:设置生成的音频时长(-1 表示随机)。
  • 设置
    • 基本设置:调整推断步数、引导尺度、种子。
    • 高级设置:微调调度器类型、CFG 类型、ERG 设置等。
  • 生成:点击“生成”按钮,根据输入创建音乐。

重拍选项卡

  • 使用不同种子重新生成略有变化的音乐。
  • 调整变异度以控制重拍与原始的差异程度。

重绘选项卡

  • 选择性重新生成音乐的特定部分。
  • 指定重绘部分的开始和结束时间。
  • 选择源音频(文本到音乐输出、上次重绘或上传)。

编辑选项卡

  • 通过更改标签或歌词修改现有音乐。
  • 在“仅歌词”模式(保留旋律)或“混音”模式(更改旋律)之间选择。
  • 调整编辑参数以控制保留原始内容的程度。

扩展选项卡

  • 在现有音乐的开头或结尾添加音乐。
  • 指定左侧和右侧扩展长度。
  • 选择要扩展的源音频。

ACE-Step 为音乐创作带来了前所未有的灵活性和高效性,无论是音乐艺术家、制作人还是内容创作者,都能从中受益。

© 版权声明

相关文章

暂无评论

none
暂无评论...