ACE Studio×阶跃星辰推出ACE-Step v1.5：混合架构开源音乐模型，商用就绪且50+语言适配

97 0

ACE Studio联合阶跃星辰（StepFun）重磅发布ACE-Step v1.5，这是一款专为消费级硬件打造的高效开源音乐基础模型，首次将商业级音乐生成能力下沉到普通硬件环境。该模型不仅在核心评估指标上超越多数商业音乐模型，更实现了速度、显存、个性化的三重突破——A100生成完整歌曲不到2秒、RTX 3090不到10秒，本地运行显存需求低于4GB，还支持少量歌曲快速训练LoRA实现风格定制。

项目主页：https://ace-step.github.io/ace-step-v1.5.github.io
GitHub：https://github.com/ace-step/ACE-Step-1.5
Hugging Face：https://huggingface.co/ACE-Step/Ace-Step1.5
魔塔：https://modelscope.cn/models/ACE-Step/Ace-Step1.5
Demo：https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5

其独创的混合架构与内在强化学习机制，更让模型兼具精准的风格控制与多样化的音乐编辑能力，且生成内容可直接商用，完美适配音乐创作者、制作人的全流程创意工作流。

ACE Studio×阶跃星辰推出ACE-Step v1.5：混合架构开源音乐模型，商用就绪且50+语言适配

核心亮点：四大突破，重新定义开源音乐模型

ACE-Step v1.5跳出传统开源音乐模型“性能弱、硬件要求高、商用受限”的局限，从能力、效率、硬件适配、商用合规四个维度实现全面突破，成为兼顾专业性与易用性的开源音乐模型标杆：

商用级生成质量，超越多数商业模型
在常用音乐生成评估指标上表现优异，生成的音乐在旋律、编曲、音色、完整性上达到商业级水准，对比同类商业模型仍有优势，彻底打破“开源不如商用”的固有认知。
极致推理速度，全硬件高效适配
针对硬件推理做深度优化，高性能显卡端极速生成——A100上生成完整歌曲不到2秒，RTX 3090上不到10秒；同时兼顾消费级硬件，无需高端显卡即可流畅运行，大幅降低使用门槛。
低显存友好，本地运行无压力
本地部署运行所需显存低于4GB，普通家用电脑、轻薄本均可轻松承载，真正实现“人人都能本地生成商用级音乐”。
轻量个性化，快速定制专属风格
支持LoRA轻量级微调，用户仅需准备几首歌曲即可完成训练，精准捕捉个人创作风格，解决开源模型“风格同质化”问题，适配个性化创作需求。
商用完全就绪，合规无风险
区别于多数基于模糊数据集训练的模型，其训练数据全程合法合规，生成的音乐可直接用于商业用途，无需担心版权问题，为创作者扫清商业落地障碍。

核心优势：合规训练数据，从源头保障商用与质量

模型的商用能力与生成质量，源于大规模、合法合规的专属训练数据集，从源头规避版权风险，同时保证音乐生成的专业性和多样性，数据集包含三大核心类别：

授权数据：海量专业音乐厂牌、创作者授权的正版音乐曲目，覆盖流行、摇滚、古典、电子等多种曲风，保证模型的音乐审美与专业度；
免版税/无版权数据：丰富的公共领域音乐、免版税音乐素材，扩充数据集规模的同时，进一步夯实合规基础；
合成数据：通过先进MIDI到音频转换技术生成的高质量音频，补充稀缺曲风、小众编曲的训练样本，提升模型的风格覆盖度与生成多样性。

技术核心：独创混合架构+内在强化学习，兼顾控制与创作

ACE-Step v1.5的高性能背后，是一套创新的技术架构设计，核心为**“语言模型（LM）做规划，扩散变换器（DiT）做生成”的混合架构，搭配独创的内在强化学习对齐机制**，让模型既能精准理解用户需求，又能生成高质量、多样化的音乐内容，同时避免外部偏见影响。

1. 混合架构：LM全能规划器 + DiT高效生成器

模型将“需求解析-音乐规划”与“音频生成-细节优化”解耦，两个模块各司其职、协同联动，实现“精准控制”与“高质量生成”的双重目标：

语言模型（LM）：音乐创作的“总规划师”
接收简单的用户文本查询（如“一首轻快的流行民谣，吉他为主奏，带副歌合唱”），通过思维链（Chain-of-Thought） 推理，将其转化为全面的歌曲蓝图——可覆盖从短音乐循环到10分钟长作品的全尺度创作，同时自动合成配套的元数据（曲风、配器、速度）、歌词、创作描述，为后续音频生成提供清晰、详细的指导。
更重要的是，该规划器支持50+种语言提示词，无论使用何种语言描述需求，模型都能精准理解、高效响应，适配全球创作者的使用习惯。
扩散变换器（DiT）：音频生成的“精工创作者”
以LM生成的歌曲蓝图为指导，负责音频的最终生成与细节优化，精准还原规划中的曲风、配器、节奏要求，生成高质量、高保真的音乐音频，同时支持多样化的音乐编辑需求，让创作更灵活。

2. 内在强化学习：无偏对齐，纯模型内部机制驱动

传统音乐生成模型的“需求-生成”对齐，多依赖外部奖励模型或人类偏好标注，易引入固有偏见，导致生成内容同质化、偏离用户真实需求。
ACE-Step v1.5独创内在强化学习对齐机制，无需任何外部奖励模型、人类标注数据，仅依靠模型自身的内部机制实现LM规划与DiT生成的精准对齐，彻底消除外部偏见影响：既保证生成内容严格遵循用户提示词要求，又能保留音乐创作的多样性与创新性，实现“精准控制”与“自由创作”的平衡。