ACE Studio 联合 阶跃星辰 (StepFun) 正式推出 ACE-Step 1.5 XL 系列模型。这是 ACE-Step 家族的重大升级,引入了拥有 40 亿 (4B) 参数 的 DiT (Diffusion Transformer) 解码器,旨在提供远超此前 2B 版本的音频质量、细节丰富度及提示遵循能力。
- 官网:https://acemusic.ai
- Hugging Face:https://huggingface.co/collections/ACE-Step/ace-step-15-xl
- 魔搭:https://modelscope.cn/collections/ACE-Step/Ace-Step-15-xl
- Demo:https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
- ComfyUI:https://huggingface.co/Comfy-Org/ace_step_1.5_ComfyUI_files
该系列包含三个变体:Base(基础全能)、SFT(高质微调)和 Turbo(极速蒸馏),并完全兼容现有的所有 LM(语言模型)组件。

核心亮点
1. 4B 参数 DiT 架构,音质飞跃
- 更大更强:DiT 解码器参数量从 2B 翻倍至 4B,Hidden Size 提升至 2560,层数增至 32 层。
- 细节丰富:显著提升了乐器分离度、人声清晰度及整体混音质感,尤其在复杂编曲中表现更佳。
- 商业就绪:基于合法合规、授权音乐及合成数据训练,生成的音乐可用于商业用途。
2. Turbo 变体:8 步极速生成
- 蒸馏加速:
xl-turbo版本通过蒸馏技术,仅需 8 步 推理即可生成高质量音频。 - 速度与质量平衡:在保持极高音质的同时,大幅降低延迟,适合实时交互或批量生成场景。
3. 全任务支持 & 灵活组合
- 六大任务:支持文本生成音乐 (Text-to-Music)、翻唱 (Cover)、重绘 (Inpainting/Repaint)、提取 (Extraction)、乐高 (Lego/Structure Editing) 及完整生成。
- LM 兼容:所有 XL 模型均兼容现有的 0.6B / 1.7B / 4B LM 模型。用户可根据显存和需求自由搭配(如
XL-SFT + 4B LM追求极致理解,XL-Turbo + 1.7B LM追求速度)。
模型变体对比
| 模型变体 | CFG 支持 | 推理步数 | 音质 | 多样性 | 适用场景 |
|---|---|---|---|---|---|
| acestep-v15-xl-base | ✅ | 50 | 高 | 高 | 全能型:适合探索创意、需要高多样性的场景 |
| acestep-v15-xl-sft | ✅ | 50 | 非常高 | 中等 | 高精度:适合对提示词遵循度要求极高的专业创作 |
| acestep-v15-xl-turbo | ❌ | 8 | 非常高 | 中等 | 极速版:适合快速迭代、实时应用及低延迟需求 |
注:CFG (Classifier-Free Guidance) 允许用户通过调整引导尺度来平衡“创造性”与“对提示词的忠实度”。SFT 和 Base 支持 CFG,Turbo 不支持。
硬件要求与配置建议
由于参数量增加,XL 系列对显存有一定要求。以下是不同显存下的运行策略:
| 显存 (VRAM) | 推荐配置策略 | 备注 |
|---|---|---|
| ≥ 24 GB | 全质量模式:XL DiT + 4B LM | 最佳体验,无需卸载,速度最快 |
| ≥ 20 GB | 标准模式:XL DiT + 1.7B/4B LM | 无需卸载,流畅运行 |
| ≥ 16 GB | CPU 卸载:启用 --cpu-offload | 部分权重移至 CPU,速度稍慢 |
| ≥ 12 GB | 极限模式:INT8 量化 + CPU 卸载 | 可运行,但推理速度较慢,适合尝鲜 |
使用建议
- 追求极致音质:选择
xl-sft+4B LM,并适当提高 CFG 值(如 3.0-5.0)。 - 追求创作灵感:选择
xl-base+4B LM,利用其高多样性探索不同风格。 - 追求速度/实时反馈:选择
xl-turbo+1.7B LM,8 步生成几乎瞬间完成。 - 显存不足:务必启用 CPU 卸载,或尝试使用 INT8 量化版本(如果可用)。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















