AI 初创公司 Stability AI 宣布与Arm 合作,优化了其音频生成模型 Stable Audio Open,使其能够在运行 Arm 芯片的移动设备上运行。这一合作旨在推动生成式 AI 技术在边缘设备上的应用,为用户提供离线、高效且无需云处理的音频生成解决方案。
合作背景
尽管目前许多 AI 驱动的应用程序可以生成音频,但大多数依赖于云处理,无法离线使用。此外,一些音频生成模型在受版权保护的内容上训练,存在知识产权风险。Stability AI 的 Stable Audio Open 模型则完全基于免版税的音频和歌曲训练,避免了这些问题。

技术突破
Stable Audio Open 在 Arm 芯片上的优化取得了显著成果。通过与 Arm 合作,Stability AI 将音频生成时间加快了 30 倍。具体而言,在 Armv9 CPU 上生成一个 11 秒的音频样本,时间从最初的 240 秒缩短到仅需 8 秒。这一优化利用了 Arm 的 KleidiAI 库和 XNNPack 技术,通过 int8 matmul 内核在 ExecuTorch 中实现高效计算。

应用场景与优势
Stable Audio Open 现在可以在移动设备上直接运行,无需互联网连接,支持用户在设备上生成高质量的音效和音频样本。这一技术突破将在 2025 年 3 月 3 日 于巴塞罗那举行的世界移动通信大会(MWC)上进行展示,标志着生成式 AI 在边缘设备上的重要进展。
Stability AI 首席执行官 Prem Akkaraju 表示:“随着生成式 AI 在企业和专业创作者中的重要性日益增加,我们的模型和工作流程必须能够无缝集成到任何生产流程中。通过与 Arm 的合作,我们实现了在移动设备上离线生成音频的目标,为创作者提供了更大的灵活性。”
未来展望
虽然目前优化后的 Stable Audio Open 模型尚未开放下载,但 Stability AI 计划在未来将其模型(包括 Stable Audio Open)推向消费级应用程序和设备。公司正在与 Arm 进一步优化和微调该模型,以确保其在移动设备上的高效运行。
此外,Stability AI 的目标不仅限于音频生成。公司计划将其在图像、视频和 3D 领域的所有尖端模型都带到边缘设备上,从而彻底改变视觉媒体的创作方式。
公司动态
Stability AI 是广受欢迎的图像生成模型 Stable Diffusion 的背后公司。尽管公司曾因管理问题陷入困境,但近期通过引入新的管理层和投资者,正在逐步扭转局面。公司还任命了著名导演 詹姆斯·卡梅隆 为其董事会成员,并发布了多个新的图像生成模型。(来源)