AI音乐模型Stable Audio：结合文本提示和时间控制长音频生成

新技术1年前发布小马良

407 0

Stability AI发布AI音乐模型Stable Audio，它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景，如音乐制作、游戏音效设计、电影配乐等。

主要功能：

生成长达95秒的立体声音频，采样率为44.1kHz。

能够根据文本提示和时间嵌入来控制生成音乐的内容和长度。

在8秒内（使用A100 GPU）渲染长达95秒的音频。

主要特点：

使用基于潜在扩散的生成模型，通过全卷积变分自编码器（VAE）定义潜在空间，提高了计算效率。

结合文本提示和时间嵌入，实现了对生成音频内容和长度的精细控制。

在两个公开的文本到音乐和音频的基准测试中表现优异，与现有技术相比，能够生成结构化的音乐和立体声音效。

工作原理：

Stable Audio基于“潜在扩散”技术，它首先使用一种名为“全卷积变分自编码器”的技术将音频数据转换为一个更简洁的“潜在”表示。然后，它在这个潜在空间中进行扩散过程，生成新的音频数据。这种在潜在空间中的工作方式使得生成过程更加高效。

Stable Audio的工作原理可以分为几个关键部分：

变分自编码器（VAE）：将44.1kHz的立体声音频压缩成可逆的潜在编码，以便更快地生成和训练。

文本编码器：使用CLAP文本编码器，根据文本提示生成音频特征。

时间嵌入：根据音频片段的开始时间和总时长生成嵌入，用于控制生成音频的长度。

扩散模型：基于U-Net架构，通过对称的下采样编码器块和上采样解码器块生成音频，使用跳跃连接和注意力层来处理长序列。

应用场景：

音乐创作：Stable Audio可以用于快速生成背景音乐、配乐或音效，为电影、游戏或广告等提供音频素材。

声音设计：在虚拟现实或增强现实应用中，Stable Audio可以用于动态生成环境中的声音，提供更为逼真的体验。

音频编辑：Stable Audio也可以用于音频编辑，快速生成或修改音频片段，提高音频制作效率。

新技术 # AI音乐 # Stability AI # Stable Audio

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

高通AI研究院推出一个为移动设备优化的视频生成模型MobileVD

高通AI研究院推出一个为移动设备优化的视频生成模型MobileVD

新技术 # MobileVD # 视频生成模型

4个月前

01520

一步式文本到图像扩散模型SwiftBrush v2：通过优化训练方法和引入新的损失函数，来提高图像质量和文本图像对齐度

一步式文本到图像扩散模型SwiftBrush v2：通过优化训练方法和引入新的损失函数，来提高图像质量和文本图像对齐度

新技术 # SwiftBrush v2

7个月前

03420

阿里推出新型大型多模态模型ConvLLaVA：专门设计用于处理高分辨率的视觉数据

阿里推出新型大型多模态模型ConvLLaVA：专门设计用于处理高分辨率的视觉数据

新技术 # ConvLLaVA # 多模态模型 # 阿里巴巴

10个月前

05240

用于主题-风格条件图像生成新技术LoRA.rar：通过使用超网络（hypernetworks）来学习合并内容和风格的LoRAs，从而实现个性化图像的快速生成

用于主题-风格条件图像生成新技术LoRA.rar：通过使用超网络（hypernetworks）来学习合并内容和风格的LoRAs，从而实现个性化图像的快速生成

新技术 # LoRA.rar

4个月前

01330

暂无评论

none

暂无评论...