ACE Studio联合阶跃星辰(StepFun)重磅发布ACE-Step v1.5,这是一款专为消费级硬件打造的高效开源音乐基础模型,首次将商业级音乐生成能力下沉到普通硬件环境。该模型不仅在核心评估指标上超越多数商业音乐模型,更实现了速度、显存、个性化的三重突破——A100生成完整歌曲不到2秒、RTX 3090不到10秒,本地运行显存需求低于4GB,还支持少量歌曲快速训练LoRA实现风格定制。
- 项目主页:https://ace-step.github.io/ace-step-v1.5.github.io
- GitHub:https://github.com/ace-step/ACE-Step-1.5
- Hugging Face:https://huggingface.co/ACE-Step/Ace-Step1.5
- 魔塔:https://modelscope.cn/models/ACE-Step/Ace-Step1.5
- Demo:https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
其独创的混合架构与内在强化学习机制,更让模型兼具精准的风格控制与多样化的音乐编辑能力,且生成内容可直接商用,完美适配音乐创作者、制作人的全流程创意工作流。

核心亮点:四大突破,重新定义开源音乐模型
ACE-Step v1.5跳出传统开源音乐模型“性能弱、硬件要求高、商用受限”的局限,从能力、效率、硬件适配、商用合规四个维度实现全面突破,成为兼顾专业性与易用性的开源音乐模型标杆:
- 商用级生成质量,超越多数商业模型
在常用音乐生成评估指标上表现优异,生成的音乐在旋律、编曲、音色、完整性上达到商业级水准,对比同类商业模型仍有优势,彻底打破“开源不如商用”的固有认知。 - 极致推理速度,全硬件高效适配
针对硬件推理做深度优化,高性能显卡端极速生成——A100上生成完整歌曲不到2秒,RTX 3090上不到10秒;同时兼顾消费级硬件,无需高端显卡即可流畅运行,大幅降低使用门槛。 - 低显存友好,本地运行无压力
本地部署运行所需显存低于4GB,普通家用电脑、轻薄本均可轻松承载,真正实现“人人都能本地生成商用级音乐”。 - 轻量个性化,快速定制专属风格
支持LoRA轻量级微调,用户仅需准备几首歌曲即可完成训练,精准捕捉个人创作风格,解决开源模型“风格同质化”问题,适配个性化创作需求。 - 商用完全就绪,合规无风险
区别于多数基于模糊数据集训练的模型,其训练数据全程合法合规,生成的音乐可直接用于商业用途,无需担心版权问题,为创作者扫清商业落地障碍。

核心优势:合规训练数据,从源头保障商用与质量
模型的商用能力与生成质量,源于大规模、合法合规的专属训练数据集,从源头规避版权风险,同时保证音乐生成的专业性和多样性,数据集包含三大核心类别:
- 授权数据:海量专业音乐厂牌、创作者授权的正版音乐曲目,覆盖流行、摇滚、古典、电子等多种曲风,保证模型的音乐审美与专业度;
- 免版税/无版权数据:丰富的公共领域音乐、免版税音乐素材,扩充数据集规模的同时,进一步夯实合规基础;
- 合成数据:通过先进MIDI到音频转换技术生成的高质量音频,补充稀缺曲风、小众编曲的训练样本,提升模型的风格覆盖度与生成多样性。
技术核心:独创混合架构+内在强化学习,兼顾控制与创作
ACE-Step v1.5的高性能背后,是一套创新的技术架构设计,核心为**“语言模型(LM)做规划,扩散变换器(DiT)做生成”的混合架构,搭配独创的内在强化学习对齐机制**,让模型既能精准理解用户需求,又能生成高质量、多样化的音乐内容,同时避免外部偏见影响。
1. 混合架构:LM全能规划器 + DiT高效生成器
模型将“需求解析-音乐规划”与“音频生成-细节优化”解耦,两个模块各司其职、协同联动,实现“精准控制”与“高质量生成”的双重目标:
- 语言模型(LM):音乐创作的“总规划师”
接收简单的用户文本查询(如“一首轻快的流行民谣,吉他为主奏,带副歌合唱”),通过思维链(Chain-of-Thought) 推理,将其转化为全面的歌曲蓝图——可覆盖从短音乐循环到10分钟长作品的全尺度创作,同时自动合成配套的元数据(曲风、配器、速度)、歌词、创作描述,为后续音频生成提供清晰、详细的指导。
更重要的是,该规划器支持50+种语言提示词,无论使用何种语言描述需求,模型都能精准理解、高效响应,适配全球创作者的使用习惯。 - 扩散变换器(DiT):音频生成的“精工创作者”
以LM生成的歌曲蓝图为指导,负责音频的最终生成与细节优化,精准还原规划中的曲风、配器、节奏要求,生成高质量、高保真的音乐音频,同时支持多样化的音乐编辑需求,让创作更灵活。
2. 内在强化学习:无偏对齐,纯模型内部机制驱动
传统音乐生成模型的“需求-生成”对齐,多依赖外部奖励模型或人类偏好标注,易引入固有偏见,导致生成内容同质化、偏离用户真实需求。
ACE-Step v1.5独创内在强化学习对齐机制,无需任何外部奖励模型、人类标注数据,仅依靠模型自身的内部机制实现LM规划与DiT生成的精准对齐,彻底消除外部偏见影响:既保证生成内容严格遵循用户提示词要求,又能保留音乐创作的多样性与创新性,实现“精准控制”与“自由创作”的平衡。
核心能力:一站式音乐创作,覆盖生成与编辑全场景
ACE-Step v1.5不仅能实现基础的文本到音乐(Text2Music)标准合成,还将精准的风格控制与多样化的音乐编辑能力融为一体,打造一站式音乐创作工具,满足创作者从初稿生成到后期编辑的全流程需求,核心能力包括:
- 文本到音乐标准合成:根据任意语言的文本提示,生成从短循环到长作品的完整音乐,曲风、配器、速度可精准控制;
- 翻唱生成:基于原曲风格或用户指定风格,生成指定歌曲的翻唱版本,支持配器、曲风的重新编排,实现“一首歌曲,多种演绎”;
- 音乐重新渲染:对已生成的音乐进行细节优化、风格微调,如更换主奏乐器、调整节奏速度、增减编曲层次,无需重新生成即可完成迭代;
- 人声转背景音乐(BGM):提取含有人声的音频中的旋律、节奏特征,自动生成适配的纯背景音乐,适配短视频、直播、影视配乐等场景;
- 多风格精准控制:支持对音乐的曲风、配器、情绪、速度等维度进行精细化调节,从宏观风格到微观细节均可自由把控,满足专业创作需求。
基础信息:开源免费,全场景适配
- 开发团队:ACE Studio × 阶跃星辰(StepFun)
- 模型类型:文本到音乐(Text2Music)开源基础模型
- 支持语言:50+种语言提示词
- 显存要求:本地运行<4GB
- 推理速度:A100<2秒/首,RTX 3090<10秒/首
- 许可证:MIT(开源免费,可自由使用、二次开发)
- 核心特性:商用就绪、低显存、极速推理、LoRA轻量个性化、多语言支持、全流程编辑
应用前景:覆盖全创作人群,适配多行业场景
ACE-Step v1.5凭借商用级能力、消费级硬件适配、全流程创作能力,打破了音乐创作的技术与硬件门槛,可覆盖从专业音乐创作者到普通内容创作者的全人群,适配多行业的音乐创作需求:
- 专业音乐创作:为音乐制作人、词曲作者提供快速创作初稿的工具,通过文本生成基础编曲,再通过编辑功能迭代优化,大幅提升创作效率;
- 内容创作配乐:为短视频博主、直播主播、自媒体创作者提供专属配乐生成服务,根据内容风格、情绪快速生成无版权BGM,解决配乐版权问题;
- 影视/游戏配乐:为小型影视制作、独立游戏开发团队生成定制化配乐,支持长时长、多场景的音乐创作,降低配乐制作成本;
- 电商/广告制作:为电商主图、广告片生成适配的背景音乐,根据产品风格、广告情绪精准控制音乐风格,提升内容传播效果;
- 个人兴趣创作:为音乐爱好者提供零门槛的创作工具,无需专业的编曲知识,仅通过文本描述即可生成自己的专属音乐,实现音乐创作自由。















