今天,Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布,具备实时交互能力,能够根据文本提示或音频示例持续生成高质量音乐音频。
- 项目主页:https://magenta.withgoogle.com/magenta-realtime
- GitHub:https://github.com/magenta/magenta-realtime
- 模型:https://huggingface.co/google/magenta-realtime
这是 Google 在 AI 音乐创作领域迈出的重要一步,也是 Magenta 项目继 MusicFX DJ 和 Lyria RealTime 后的又一重要成果。

什么是 Magenta RealTime?
Magenta RealTime(简称 Magenta RT)是一个拥有 8亿参数 的自回归 Transformer 模型,训练数据包含约 19万小时 的器乐库存音乐。其目标是实现实时、可控的音乐生成,适用于现场表演、互动装置、游戏音效等场景。
核心特性:
- 实时生成:2秒音频可在 1.25秒内生成(运行于免费 Colab TPU)
- 多模态输入:支持文本提示、音频样本或两者的加权组合
- 高保真输出:48kHz 立体声音频
- 小规模部署:适合资源有限环境,如现场演出、设备端推理
- 即将支持微调与本地推理
技术架构解析
Magenta RT 由三个主要组件构成:
1. SpectroStream
一种离散音频编解码器,基于 SoundStream RVQ 架构升级而来。它负责将 48kHz 立体声音频转换为标记(tokens),实现高效的音频表示。
- 输入/输出:高保真音频(48kHz立体声)
- 编码输出:25Hz帧率,64层RVQ编码,10位量化,16kbps比特率
2. MusicCoCa
这是一种新的音乐-文本联合嵌入模型,融合了 MuLan 和 CoCa 方法,用于将文本描述或音频片段映射到统一的语义空间。
- 输入:16kHz单声道音频或文本提示(如“爵士钢琴”)
- 输出:768维嵌入,12层RVQ编码,10位量化
3. 编码器-解码器Transformer LLM
基于 MusicLM 架构改进而来,负责根据上下文音频和风格嵌入生成新的音频标记。
- 编码器输入:
- 上下文音频:10秒音频(1000 tokens)
- 风格嵌入:6个 tokens(来自 MusicCoCa)
- 解码器输出:2秒音频(800 tokens)
如何使用 Magenta RealTime?
用户可通过以下方式体验 Magenta RT:
- 在 Colab Demo 中尝试推理
- 从 GitHub 获取代码
- 下载模型权重(托管于 Google Cloud Storage 和 Hugging Face)
目前模型已能在 免费 Colab TPU 上运行,未来将支持 本地设备推理 和 个性化微调。
应用场景广泛
Magenta RT 可应用于多个领域,包括但不限于:
✨ 交互式音乐创作
- 现场表演:通过操控风格嵌入,实现即兴演奏控制
- 无障碍创作:帮助不具备传统乐器技能的人参与音乐制作
- 游戏音效:根据玩家行为动态生成背景音乐
🔬 研究用途
- 迁移学习:利用 MusicCoCa 提取的音乐特征进行风格识别与分析
- 模型扩展:为后续研究提供基础架构和数据接口
🎓 教育探索
- 流派实验:通过自然语言提示了解不同音乐风格
- 历史与文化对比:快速生成并比较不同年代、地区的音乐风格
🛠️ 个性化定制
- 微调支持即将上线:艺术家可上传自己的作品集,训练专属风格模型
已知限制与挑战
尽管 Magenta RT 具备诸多优势,但仍存在一些局限性:
- 风格覆盖范围有限:训练数据以西方器乐为主,对声乐及非西方音乐表现不足
- 无法生成歌词:虽然可产生哼唱效果,但不支持文字驱动的歌词生成
- 延迟问题:每次风格调整需等待最多 2 秒生效
- 上下文长度限制:最大记忆窗口为 10 秒,难以构建长结构歌曲
为何选择 Magenta RealTime?
Magenta 项目始终致力于增强人类创造力,而非替代它。Magenta RT 的实时交互机制鼓励用户主动参与创作过程,形成“感知-反馈-动作”的闭环,激发创造性流动状态。
此外,实时模型天然避免了被动内容泛滥的问题,因为每一段生成都依赖用户的即时输入。
未来展望
Magenta RT 是 Magenta 项目开源策略的延续。接下来,团队计划推出更多功能,包括:
- 本地设备推理支持
- 用户自定义微调
- 更低延迟、更高音质的新一代模型
我们期待看到开发者、艺术家和研究人员如何在此基础上构建出全新的音乐交互体验。















