ACE Studio×阶跃星辰推出ACE-Step v1.5:混合架构开源音乐模型,商用就绪且50+语言适配

语音模型12小时前更新 小马良
14 0

ACE Studio联合阶跃星辰(StepFun)重磅发布ACE-Step v1.5,这是一款专为消费级硬件打造的高效开源音乐基础模型,首次将商业级音乐生成能力下沉到普通硬件环境。该模型不仅在核心评估指标上超越多数商业音乐模型,更实现了速度、显存、个性化的三重突破——A100生成完整歌曲不到2秒、RTX 3090不到10秒,本地运行显存需求低于4GB,还支持少量歌曲快速训练LoRA实现风格定制。

其独创的混合架构与内在强化学习机制,更让模型兼具精准的风格控制与多样化的音乐编辑能力,且生成内容可直接商用,完美适配音乐创作者、制作人的全流程创意工作流。

ACE Studio×阶跃星辰推出ACE-Step v1.5:混合架构开源音乐模型,商用就绪且50+语言适配

核心亮点:四大突破,重新定义开源音乐模型

ACE-Step v1.5跳出传统开源音乐模型“性能弱、硬件要求高、商用受限”的局限,从能力、效率、硬件适配、商用合规四个维度实现全面突破,成为兼顾专业性与易用性的开源音乐模型标杆:

  1. 商用级生成质量,超越多数商业模型
    在常用音乐生成评估指标上表现优异,生成的音乐在旋律、编曲、音色、完整性上达到商业级水准,对比同类商业模型仍有优势,彻底打破“开源不如商用”的固有认知。
  2. 极致推理速度,全硬件高效适配
    针对硬件推理做深度优化,高性能显卡端极速生成——A100上生成完整歌曲不到2秒,RTX 3090上不到10秒;同时兼顾消费级硬件,无需高端显卡即可流畅运行,大幅降低使用门槛。
  3. 低显存友好,本地运行无压力
    本地部署运行所需显存低于4GB,普通家用电脑、轻薄本均可轻松承载,真正实现“人人都能本地生成商用级音乐”。
  4. 轻量个性化,快速定制专属风格
    支持LoRA轻量级微调,用户仅需准备几首歌曲即可完成训练,精准捕捉个人创作风格,解决开源模型“风格同质化”问题,适配个性化创作需求。
  5. 商用完全就绪,合规无风险
    区别于多数基于模糊数据集训练的模型,其训练数据全程合法合规,生成的音乐可直接用于商业用途,无需担心版权问题,为创作者扫清商业落地障碍。
ACE Studio×阶跃星辰推出ACE-Step v1.5:混合架构开源音乐模型,商用就绪且50+语言适配

核心优势:合规训练数据,从源头保障商用与质量

模型的商用能力与生成质量,源于大规模、合法合规的专属训练数据集,从源头规避版权风险,同时保证音乐生成的专业性和多样性,数据集包含三大核心类别:

  • 授权数据:海量专业音乐厂牌、创作者授权的正版音乐曲目,覆盖流行、摇滚、古典、电子等多种曲风,保证模型的音乐审美与专业度;
  • 免版税/无版权数据:丰富的公共领域音乐、免版税音乐素材,扩充数据集规模的同时,进一步夯实合规基础;
  • 合成数据:通过先进MIDI到音频转换技术生成的高质量音频,补充稀缺曲风、小众编曲的训练样本,提升模型的风格覆盖度与生成多样性。

技术核心:独创混合架构+内在强化学习,兼顾控制与创作

ACE-Step v1.5的高性能背后,是一套创新的技术架构设计,核心为**“语言模型(LM)做规划,扩散变换器(DiT)做生成”的混合架构,搭配独创的内在强化学习对齐机制**,让模型既能精准理解用户需求,又能生成高质量、多样化的音乐内容,同时避免外部偏见影响。

1. 混合架构:LM全能规划器 + DiT高效生成器

模型将“需求解析-音乐规划”与“音频生成-细节优化”解耦,两个模块各司其职、协同联动,实现“精准控制”与“高质量生成”的双重目标:

  • 语言模型(LM):音乐创作的“总规划师”
    接收简单的用户文本查询(如“一首轻快的流行民谣,吉他为主奏,带副歌合唱”),通过思维链(Chain-of-Thought) 推理,将其转化为全面的歌曲蓝图——可覆盖从短音乐循环到10分钟长作品的全尺度创作,同时自动合成配套的元数据(曲风、配器、速度)、歌词、创作描述,为后续音频生成提供清晰、详细的指导。
    更重要的是,该规划器支持50+种语言提示词,无论使用何种语言描述需求,模型都能精准理解、高效响应,适配全球创作者的使用习惯。
  • 扩散变换器(DiT):音频生成的“精工创作者”
    以LM生成的歌曲蓝图为指导,负责音频的最终生成与细节优化,精准还原规划中的曲风、配器、节奏要求,生成高质量、高保真的音乐音频,同时支持多样化的音乐编辑需求,让创作更灵活。

2. 内在强化学习:无偏对齐,纯模型内部机制驱动

传统音乐生成模型的“需求-生成”对齐,多依赖外部奖励模型或人类偏好标注,易引入固有偏见,导致生成内容同质化、偏离用户真实需求。
ACE-Step v1.5独创内在强化学习对齐机制,无需任何外部奖励模型、人类标注数据,仅依靠模型自身的内部机制实现LM规划与DiT生成的精准对齐,彻底消除外部偏见影响:既保证生成内容严格遵循用户提示词要求,又能保留音乐创作的多样性与创新性,实现“精准控制”与“自由创作”的平衡。

核心能力:一站式音乐创作,覆盖生成与编辑全场景

ACE-Step v1.5不仅能实现基础的文本到音乐(Text2Music)标准合成,还将精准的风格控制多样化的音乐编辑能力融为一体,打造一站式音乐创作工具,满足创作者从初稿生成到后期编辑的全流程需求,核心能力包括:

  • 文本到音乐标准合成:根据任意语言的文本提示,生成从短循环到长作品的完整音乐,曲风、配器、速度可精准控制;
  • 翻唱生成:基于原曲风格或用户指定风格,生成指定歌曲的翻唱版本,支持配器、曲风的重新编排,实现“一首歌曲,多种演绎”;
  • 音乐重新渲染:对已生成的音乐进行细节优化、风格微调,如更换主奏乐器、调整节奏速度、增减编曲层次,无需重新生成即可完成迭代;
  • 人声转背景音乐(BGM):提取含有人声的音频中的旋律、节奏特征,自动生成适配的纯背景音乐,适配短视频、直播、影视配乐等场景;
  • 多风格精准控制:支持对音乐的曲风、配器、情绪、速度等维度进行精细化调节,从宏观风格到微观细节均可自由把控,满足专业创作需求。

基础信息:开源免费,全场景适配

  • 开发团队:ACE Studio × 阶跃星辰(StepFun)
  • 模型类型:文本到音乐(Text2Music)开源基础模型
  • 支持语言:50+种语言提示词
  • 显存要求:本地运行<4GB
  • 推理速度:A100<2秒/首,RTX 3090<10秒/首
  • 许可证:MIT(开源免费,可自由使用、二次开发)
  • 核心特性:商用就绪、低显存、极速推理、LoRA轻量个性化、多语言支持、全流程编辑

应用前景:覆盖全创作人群,适配多行业场景

ACE-Step v1.5凭借商用级能力、消费级硬件适配、全流程创作能力,打破了音乐创作的技术与硬件门槛,可覆盖从专业音乐创作者到普通内容创作者的全人群,适配多行业的音乐创作需求:

  1. 专业音乐创作:为音乐制作人、词曲作者提供快速创作初稿的工具,通过文本生成基础编曲,再通过编辑功能迭代优化,大幅提升创作效率;
  2. 内容创作配乐:为短视频博主、直播主播、自媒体创作者提供专属配乐生成服务,根据内容风格、情绪快速生成无版权BGM,解决配乐版权问题;
  3. 影视/游戏配乐:为小型影视制作、独立游戏开发团队生成定制化配乐,支持长时长、多场景的音乐创作,降低配乐制作成本;
  4. 电商/广告制作:为电商主图、广告片生成适配的背景音乐,根据产品风格、广告情绪精准控制音乐风格,提升内容传播效果;
  5. 个人兴趣创作:为音乐爱好者提供零门槛的创作工具,无需专业的编曲知识,仅通过文本描述即可生成自己的专属音乐,实现音乐创作自由。
© 版权声明

相关文章

暂无评论

none
暂无评论...