AI音乐模型Stable Audio:结合文本提示和时间控制长音频生成

Stability AI发布AI音乐模型Stable Audio,它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景,如音乐制作、游戏音效设计、电影配乐等。

主要功能:

  • 生成长达95秒的立体声音频,采样率为44.1kHz。
  • 能够根据文本提示和时间嵌入来控制生成音乐的内容和长度。
  • 在8秒内(使用A100 GPU)渲染长达95秒的音频。

主要特点:

  • 使用基于潜在扩散的生成模型,通过全卷积变分自编码器(VAE)定义潜在空间,提高了计算效率。
  • 结合文本提示和时间嵌入,实现了对生成音频内容和长度的精细控制。
  • 在两个公开的文本到音乐和音频的基准测试中表现优异,与现有技术相比,能够生成结构化的音乐和立体声音效。

工作原理:

Stable Audio基于“潜在扩散”技术,它首先使用一种名为“全卷积变分自编码器”的技术将音频数据转换为一个更简洁的“潜在”表示。然后,它在这个潜在空间中进行扩散过程,生成新的音频数据。这种在潜在空间中的工作方式使得生成过程更加高效。

Stable Audio的工作原理可以分为几个关键部分:

  1. 变分自编码器(VAE):将44.1kHz的立体声音频压缩成可逆的潜在编码,以便更快地生成和训练。
  2. 文本编码器:使用CLAP文本编码器,根据文本提示生成音频特征。
  3. 时间嵌入:根据音频片段的开始时间和总时长生成嵌入,用于控制生成音频的长度。
  4. 扩散模型:基于U-Net架构,通过对称的下采样编码器块和上采样解码器块生成音频,使用跳跃连接和注意力层来处理长序列。

应用场景:

  1. 音乐创作:Stable Audio可以用于快速生成背景音乐、配乐或音效,为电影、游戏或广告等提供音频素材。
  2. 声音设计:在虚拟现实或增强现实应用中,Stable Audio可以用于动态生成环境中的声音,提供更为逼真的体验。
  3. 音频编辑:Stable Audio也可以用于音频编辑,快速生成或修改音频片段,提高音频制作效率。
0

评论0

没有账号?注册  忘记密码?