Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

语音模型11个月前发布小马良

222 0

AI 初创公司 Stability AI发布了 Stable Audio Open Small，这是一款专为移动设备设计的音频生成模型。据公司宣称，这是目前市场上最快的音频生成模型，并且效率高到可以在智能手机上直接运行，无需依赖云端处理。

GitHub：https://github.com/Stability-AI/stable-audio-tools
模型：https://huggingface.co/stabilityai/stable-audio-open-small

这一模型是 Stability AI 与芯片制造商 Arm 合作的成果。Arm 是许多平板电脑、手机和其他移动设备处理器的核心供应商，其硬件优化能力为 Stable Audio Open Small 的高效运行提供了技术支持。与当前主流的音频生成工具（如 Suno 和 Udio）不同，这些工具大多依赖云端计算，而 Stable Audio Open Small 实现了真正的离线使用，为用户提供了更高的灵活性和隐私保护。

数据集与训练特点：免版税音频的创新尝试

Stable Audio Open Small 的训练数据完全来自于免版税音频库 Free Music Archive 和 Freesound，这一点使其在知识产权方面具有显著优势。相比之下，Suno 和 Udio 等竞争对手的模型因使用包含受版权保护内容的数据集而面临潜在的法律风险。

该模型拥有 3.41 亿个参数，经过优化后能够在 Arm CPU 上高效运行。尽管参数规模相对较小，但它能够快速生成短音频样本和音效（例如鼓点、乐器片段等）。据 Stability AI 称，这款模型可以在智能手机上以不到 8 秒 的时间生成最长 11 秒 的立体声音频。

模型的局限性

尽管 Stable Audio Open Small 在效率和便携性上表现出色，但它也存在一些明显的局限性：

语言支持有限：当前版本仅支持英文提示词，无法处理其他语言的输入。
音乐生成能力不足：Stability AI 在文档中明确指出，该模型无法生成逼真的歌声或高质量的完整歌曲。
风格偏向性：由于训练数据主要来自西方音乐库，模型在非西方音乐风格上的表现可能不够理想。

这些限制表明，Stable Audio Open Small 更适合用于生成短促的音效或简单的音频片段，而非复杂的音乐创作。

使用条款与商业化限制

Stable Audio Open Small 的使用条款对开发者提出了明确的要求：

免费使用范围：研究人员、爱好者以及年收入低于 100 万美元的企业可以免费使用该模型。
商业许可要求：对于年收入超过 100 万美元的开发者和组织，则需要购买 Stability AI 的企业许可证。

这一条款在一定程度上限制了大企业的广泛采用，但为中小型开发者和初创公司提供了友好的使用环境。

Stability AI 的复兴之路

作为广受欢迎的图像生成模型 Stable Diffusion 的背后公司，Stability AI 曾因财务困境一度陷入危机。然而，公司近期通过新资金注入和战略调整，正在逐步扭转局面。

去年，Stability AI 获得了包括前谷歌 CEO 埃里克·施密特和 Napster 创始人肖恩·帕克在内的投资者支持。此外，公司还聘请了新首席执行官，并任命著名电影导演 詹姆斯·卡梅隆 加入董事会，为其未来发展注入新的活力。

近几个月，Stability AI 发布了多个新的图像生成模型，并推出了 Stable Audio Open Small，展现了其在多模态 AI 领域的持续创新能力。

语音模型 # Stability AI # Stable Audio Open Small

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

语音模型 # Nemotron-Speech-Streaming-En-0.6B # 英伟达 # 语音识别

3个月前

0290

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

新技术 # Stability AI # TAAE

1年前

03010

英伟达推出实时语音对话模型PersonaPlex，打造支持自定义角色与声音的自然对话AI

英伟达推出实时语音对话模型PersonaPlex，打造支持自定义角色与声音的自然对话AI

语音模型 # PersonaPlex # 实时语音对话模型 # 英伟达

2个月前

0340

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

语音模型 # ACE-Step # 音乐模型

11个月前

05090

暂无评论

none

暂无评论...