ACE-Step 1.5 XL 发布：4B 参数 DiT 解码器，定义开源音乐生成新高度

11 0

ACE Studio 联合 阶跃星辰 (StepFun) 正式推出 ACE-Step 1.5 XL 系列模型。这是 ACE-Step 家族的重大升级，引入了拥有 40 亿 (4B) 参数 的 DiT (Diffusion Transformer) 解码器，旨在提供远超此前 2B 版本的音频质量、细节丰富度及提示遵循能力。

官网：https://acemusic.ai
Hugging Face：https://huggingface.co/collections/ACE-Step/ace-step-15-xl
魔搭：https://modelscope.cn/collections/ACE-Step/Ace-Step-15-xl
Demo：https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
ComfyUI：https://huggingface.co/Comfy-Org/ace_step_1.5_ComfyUI_files

该系列包含三个变体：Base（基础全能）、SFT（高质微调）和 Turbo（极速蒸馏），并完全兼容现有的所有 LM（语言模型）组件。

ACE-Step 1.5 XL 发布：4B 参数 DiT 解码器，定义开源音乐生成新高度

ACE Studio×阶跃星辰推出ACE-Step v1.5：混合架构开源音乐模型，商用就绪且50+语言适配

核心亮点

1. 4B 参数 DiT 架构，音质飞跃

更大更强：DiT 解码器参数量从 2B 翻倍至 4B，Hidden Size 提升至 2560，层数增至 32 层。
细节丰富：显著提升了乐器分离度、人声清晰度及整体混音质感，尤其在复杂编曲中表现更佳。
商业就绪：基于合法合规、授权音乐及合成数据训练，生成的音乐可用于商业用途。

2. Turbo 变体：8 步极速生成

蒸馏加速：xl-turbo 版本通过蒸馏技术，仅需 8 步 推理即可生成高质量音频。
速度与质量平衡：在保持极高音质的同时，大幅降低延迟，适合实时交互或批量生成场景。

3. 全任务支持 & 灵活组合

六大任务：支持文本生成音乐 (Text-to-Music)、翻唱 (Cover)、重绘 (Inpainting/Repaint)、提取 (Extraction)、乐高 (Lego/Structure Editing) 及完整生成。
LM 兼容：所有 XL 模型均兼容现有的 0.6B / 1.7B / 4B LM 模型。用户可根据显存和需求自由搭配（如 XL-SFT + 4B LM 追求极致理解，XL-Turbo + 1.7B LM 追求速度）。

模型变体对比

模型变体	CFG 支持	推理步数	音质	多样性	适用场景
acestep-v15-xl-base	✅	50	高	高	全能型：适合探索创意、需要高多样性的场景
acestep-v15-xl-sft	✅	50	非常高	中等	高精度：适合对提示词遵循度要求极高的专业创作
acestep-v15-xl-turbo	❌	8	非常高	中等	极速版：适合快速迭代、实时应用及低延迟需求

注：CFG (Classifier-Free Guidance) 允许用户通过调整引导尺度来平衡“创造性”与“对提示词的忠实度”。SFT 和 Base 支持 CFG，Turbo 不支持。

硬件要求与配置建议

由于参数量增加，XL 系列对显存有一定要求。以下是不同显存下的运行策略：

显存 (VRAM)	推荐配置策略	备注
≥ 24 GB	全质量模式：XL DiT + 4B LM	最佳体验，无需卸载，速度最快
≥ 20 GB	标准模式：XL DiT + 1.7B/4B LM	无需卸载，流畅运行
≥ 16 GB	CPU 卸载：启用 `--cpu-offload`	部分权重移至 CPU，速度稍慢
≥ 12 GB	极限模式：INT8 量化 + CPU 卸载	可运行，但推理速度较慢，适合尝鲜