谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

语音模型6个月前发布 小马良
278 0

今天,Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布,具备实时交互能力,能够根据文本提示或音频示例持续生成高质量音乐音频。

  • 项目主页:https://magenta.withgoogle.com/magenta-realtime
  • GitHub:https://github.com/magenta/magenta-realtime
  • 模型:https://huggingface.co/google/magenta-realtime

这是 Google 在 AI 音乐创作领域迈出的重要一步,也是 Magenta 项目继 MusicFX DJ 和 Lyria RealTime 后的又一重要成果。

什么是 Magenta RealTime?

Magenta RealTime(简称 Magenta RT)是一个拥有 8亿参数 的自回归 Transformer 模型,训练数据包含约 19万小时 的器乐库存音乐。其目标是实现实时、可控的音乐生成,适用于现场表演、互动装置、游戏音效等场景。

核心特性:

  • 实时生成:2秒音频可在 1.25秒内生成(运行于免费 Colab TPU)
  • 多模态输入:支持文本提示、音频样本或两者的加权组合
  • 高保真输出:48kHz 立体声音频
  • 小规模部署:适合资源有限环境,如现场演出、设备端推理
  • 即将支持微调与本地推理

技术架构解析

Magenta RT 由三个主要组件构成:

1. SpectroStream

一种离散音频编解码器,基于 SoundStream RVQ 架构升级而来。它负责将 48kHz 立体声音频转换为标记(tokens),实现高效的音频表示。

  • 输入/输出:高保真音频(48kHz立体声)
  • 编码输出:25Hz帧率,64层RVQ编码,10位量化,16kbps比特率

2. MusicCoCa

这是一种新的音乐-文本联合嵌入模型,融合了 MuLan 和 CoCa 方法,用于将文本描述或音频片段映射到统一的语义空间。

  • 输入:16kHz单声道音频或文本提示(如“爵士钢琴”)
  • 输出:768维嵌入,12层RVQ编码,10位量化

3. 编码器-解码器Transformer LLM

基于 MusicLM 架构改进而来,负责根据上下文音频和风格嵌入生成新的音频标记。

  • 编码器输入:
    • 上下文音频:10秒音频(1000 tokens)
    • 风格嵌入:6个 tokens(来自 MusicCoCa)
  • 解码器输出:2秒音频(800 tokens)

如何使用 Magenta RealTime?

用户可通过以下方式体验 Magenta RT:

  •  Colab Demo 中尝试推理
  • 从 GitHub 获取代码
  • 下载模型权重(托管于 Google Cloud Storage 和 Hugging Face)

目前模型已能在 免费 Colab TPU 上运行,未来将支持 本地设备推理  个性化微调

应用场景广泛

Magenta RT 可应用于多个领域,包括但不限于:

✨ 交互式音乐创作

  • 现场表演:通过操控风格嵌入,实现即兴演奏控制
  • 无障碍创作:帮助不具备传统乐器技能的人参与音乐制作
  • 游戏音效:根据玩家行为动态生成背景音乐

🔬 研究用途

  • 迁移学习:利用 MusicCoCa 提取的音乐特征进行风格识别与分析
  • 模型扩展:为后续研究提供基础架构和数据接口

🎓 教育探索

  • 流派实验:通过自然语言提示了解不同音乐风格
  • 历史与文化对比:快速生成并比较不同年代、地区的音乐风格

🛠️ 个性化定制

  • 微调支持即将上线:艺术家可上传自己的作品集,训练专属风格模型

已知限制与挑战

尽管 Magenta RT 具备诸多优势,但仍存在一些局限性:

  • 风格覆盖范围有限:训练数据以西方器乐为主,对声乐及非西方音乐表现不足
  • 无法生成歌词:虽然可产生哼唱效果,但不支持文字驱动的歌词生成
  • 延迟问题:每次风格调整需等待最多 2 秒生效
  • 上下文长度限制:最大记忆窗口为 10 秒,难以构建长结构歌曲

为何选择 Magenta RealTime?

Magenta 项目始终致力于增强人类创造力,而非替代它。Magenta RT 的实时交互机制鼓励用户主动参与创作过程,形成“感知-反馈-动作”的闭环,激发创造性流动状态。

此外,实时模型天然避免了被动内容泛滥的问题,因为每一段生成都依赖用户的即时输入。

未来展望

Magenta RT 是 Magenta 项目开源策略的延续。接下来,团队计划推出更多功能,包括:

  • 本地设备推理支持
  • 用户自定义微调
  • 更低延迟、更高音质的新一代模型

我们期待看到开发者、艺术家和研究人员如何在此基础上构建出全新的音乐交互体验。

© 版权声明

相关文章

暂无评论

none
暂无评论...