谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

324 0

今天，Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布，具备实时交互能力，能够根据文本提示或音频示例持续生成高质量音乐音频。

项目主页：https://magenta.withgoogle.com/magenta-realtime
GitHub：https://github.com/magenta/magenta-realtime
模型：https://huggingface.co/google/magenta-realtime

这是 Google 在 AI 音乐创作领域迈出的重要一步，也是 Magenta 项目继 MusicFX DJ 和 Lyria RealTime 后的又一重要成果。

什么是 Magenta RealTime？

Magenta RealTime（简称 Magenta RT）是一个拥有 8亿参数 的自回归 Transformer 模型，训练数据包含约 19万小时 的器乐库存音乐。其目标是实现实时、可控的音乐生成，适用于现场表演、互动装置、游戏音效等场景。

核心特性：

实时生成：2秒音频可在 1.25秒内生成（运行于免费 Colab TPU）
多模态输入：支持文本提示、音频样本或两者的加权组合
高保真输出：48kHz 立体声音频
小规模部署：适合资源有限环境，如现场演出、设备端推理
即将支持微调与本地推理

技术架构解析

Magenta RT 由三个主要组件构成：

1. SpectroStream

一种离散音频编解码器，基于 SoundStream RVQ 架构升级而来。它负责将 48kHz 立体声音频转换为标记（tokens），实现高效的音频表示。

输入/输出：高保真音频（48kHz立体声）
编码输出：25Hz帧率，64层RVQ编码，10位量化，16kbps比特率

2. MusicCoCa

这是一种新的音乐-文本联合嵌入模型，融合了 MuLan 和 CoCa 方法，用于将文本描述或音频片段映射到统一的语义空间。

输入：16kHz单声道音频或文本提示（如“爵士钢琴”）
输出：768维嵌入，12层RVQ编码，10位量化

3. 编码器-解码器Transformer LLM

基于 MusicLM 架构改进而来，负责根据上下文音频和风格嵌入生成新的音频标记。

编码器输入：
- 上下文音频：10秒音频（1000 tokens）
- 风格嵌入：6个 tokens（来自 MusicCoCa）
解码器输出：2秒音频（800 tokens）

如何使用 Magenta RealTime？

用户可通过以下方式体验 Magenta RT：

在 Colab Demo 中尝试推理
从 GitHub 获取代码
下载模型权重（托管于 Google Cloud Storage 和 Hugging Face）

目前模型已能在 免费 Colab TPU 上运行，未来将支持 本地设备推理 和 个性化微调。

应用场景广泛

Magenta RT 可应用于多个领域，包括但不限于：

✨ 交互式音乐创作

现场表演：通过操控风格嵌入，实现即兴演奏控制
无障碍创作：帮助不具备传统乐器技能的人参与音乐制作
游戏音效：根据玩家行为动态生成背景音乐

🔬 研究用途

迁移学习：利用 MusicCoCa 提取的音乐特征进行风格识别与分析
模型扩展：为后续研究提供基础架构和数据接口

🎓 教育探索

流派实验：通过自然语言提示了解不同音乐风格
历史与文化对比：快速生成并比较不同年代、地区的音乐风格

🛠️ 个性化定制

微调支持即将上线：艺术家可上传自己的作品集，训练专属风格模型

已知限制与挑战

尽管 Magenta RT 具备诸多优势，但仍存在一些局限性：

风格覆盖范围有限：训练数据以西方器乐为主，对声乐及非西方音乐表现不足
无法生成歌词：虽然可产生哼唱效果，但不支持文字驱动的歌词生成
延迟问题：每次风格调整需等待最多 2 秒生效
上下文长度限制：最大记忆窗口为 10 秒，难以构建长结构歌曲

为何选择 Magenta RealTime？

Magenta 项目始终致力于增强人类创造力，而非替代它。Magenta RT 的实时交互机制鼓励用户主动参与创作过程，形成“感知-反馈-动作”的闭环，激发创造性流动状态。

此外，实时模型天然避免了被动内容泛滥的问题，因为每一段生成都依赖用户的即时输入。

未来展望

Magenta RT 是 Magenta 项目开源策略的延续。接下来，团队计划推出更多功能，包括：

本地设备推理支持
用户自定义微调
更低延迟、更高音质的新一代模型

我们期待看到开发者、艺术家和研究人员如何在此基础上构建出全新的音乐交互体验。

文章版权归作者所有，未经允许请勿转载。

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

语音模型 # Fun-Audio-Chat # 通义百聆

3个月前

0270

TADA：给AI音乐生成装上"调音台"，让创作精准可控

语音模型 # TADA # 音频扩散模型

3周前

0150

阶跃星辰开源Step-Audio-R1：首个支持测试时计算扩展的音频大语言模型，“越想越准”比肩Gemini 3

语音模型 # Step-Audio-R1 # 阶跃星辰

3个月前

0450

香港科技大学推出歌词生成音乐模型YuE

语音模型 # AI音乐 # YuE

1年前

02720

暂无评论

暂无评论...

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

什么是 Magenta RealTime？

核心特性：

技术架构解析

1. SpectroStream

2. MusicCoCa

3. 编码器-解码器Transformer LLM

如何使用 Magenta RealTime？

应用场景广泛

✨ 交互式音乐创作

🔬 研究用途

🎓 教育探索

🛠️ 个性化定制

已知限制与挑战

为何选择 Magenta RealTime？

未来展望

中科院团队推出多模态新模型 Stream-Omni，语音+视觉交互更高效

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

相关文章

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

TADA：给AI音乐生成装上"调音台"，让创作精准可控

阶跃星辰开源Step-Audio-R1：首个支持测试时计算扩展的音频大语言模型，“越想越准”比肩Gemini 3

香港科技大学推出歌词生成音乐模型YuE

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

新型图像到3D框架Unique3D：从单视图图像高效生成高质量的3D网格模型

Olm DragCrop for ComfyUI：交互式图像裁剪节点，为你的图像工作流提速

S.H.I.T

新QClaw

CoPaw

waoo

新ArkClaw

新WorkBuddy

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

什么是 Magenta RealTime？

核心特性：

技术架构解析

1. SpectroStream

2. MusicCoCa

3. 编码器-解码器Transformer LLM

如何使用 Magenta RealTime？

应用场景广泛

✨ 交互式音乐创作

🔬 研究用途

🎓 教育探索

🛠️ 个性化定制

已知限制与挑战

为何选择 Magenta RealTime？

未来展望

中科院团队推出多模态新模型 Stream-Omni，语音+视觉交互更高效

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

waoo

新ArkClaw

新WorkBuddy