谷歌发布全新音乐模型 Lyria 3：已集成到Gemini，输入文字或图片，30 秒生成原创音乐

31 0

谷歌周三正式宣布，其旗舰 AI 助手 Gemini 迎来重大功能升级——集成音乐生成能力。这一新功能由谷歌旗下 DeepMind 团队最新研发的 Lyria 3 模型驱动，目前正处于测试阶段，面向全球 18 岁以上的用户开放。

谷歌发布全新音乐模型 Lyria 3：已集成到Gemini，输入文字或图片，30 秒生成原创音乐

这意味着，用户只需通过简单的文字描述或上传一张照片，即可在几秒钟内获得一首带有歌词、伴奏甚至定制封面艺术的完整音乐片段。

核心功能：多模态输入与精细化控制

Lyria 3 模型在音频生成的真实性、复杂度和可控性上较前代有了显著提升。在 Gemini 应用中，用户可以通过两种主要方式激发创作灵感：

文本到曲目（Text-to-Track）：用户可以描述特定的流派、情绪、场景甚至是“内部笑话”。例如，输入“创作一首关于袜子寻找另一半的喜剧 R&B 慢歌”，Gemini 将在数十秒内生成一段 30 秒的曲目，并自动匹配由 Nano Banana 模型生成的专属封面艺术。
图像/视频到曲目（Media-to-Track）：用户上传照片或视频后，AI 会分析媒体文件的情绪基调，创作出与之完美契合的背景音乐和歌词。

除了自动生成，用户还拥有更高的创意控制权，可以调整音乐的风格、人声类型（如男声、女声、合唱等）以及节奏快慢，以满足个性化需求。值得注意的是，生成的歌词不再需要用户提供，Lyria 3 会根据提示词自动创作。

版权与伦理：拒绝模仿，拥抱原创

面对音乐行业对 AI 侵犯版权的担忧，谷歌在此次更新中强调了“负责任开发”的原则：

禁止直接模仿：谷歌明确表示，Lyria 3 旨在促进原创表达，而非模仿现有艺术家。如果用户在提示词中输入某位知名歌手的名字，Gemini 不会直接模仿其声音，而是将其作为风格参考，创作一首具有相似情绪或流派特征的原创曲目。
内容过滤机制：系统内置了过滤器，会将生成内容与现有库进行比对，以防止侵权输出。
SynthID 水印技术：所有通过 Lyria 3 生成的音乐都嵌入了谷歌自主研发的 SynthID 数字水印。这是一种人耳无法察觉但机器可识别的标记，用于标识内容为 AI 生成。
反向验证功能：谷歌还在 Gemini 中新增了音频验证工具。用户可以上传任意音频文件询问：“这是 AI 生成的吗？”Gemini 将通过检测 SynthID 水印并结合推理能力，给出判断结果。

生态扩展：从个人娱乐到创作者经济

此次更新不仅限于 Gemini 个人用户。谷歌同时宣布，将 Dream Track 功能的适用范围从美国扩展至全球 YouTube 创作者。创作者可以利用 Lyria 3 为短视频定制高质量的原创配乐，无论是抒情段落还是背景节奏，都能实现高度自定义，从而提升视频内容的独特性。

对于 Google AI Plus、Pro 和 Ultra 订阅用户，谷歌还提供了更高的生成额度，以满足高频创作需求。

语言支持与发布计划

目前，该功能已登陆 Web 端（gemini.google.com），并将在未来几天内推送至 移动应用。支持的语言包括英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语，谷歌计划在未来进一步扩大语言覆盖范围。

行业背景：机遇与挑战并存

AI 音乐生成的兴起在业界引发了复杂反响。一方面，Spotify、YouTube 等平台正积极探索与唱片公司合作，试图将 AI 音乐商业化；另一方面，多家 AI 公司正面临来自音乐界的版权诉讼，争议焦点集中在训练数据的合法性上。与此同时，Deezer 等平台已推出工具标记 AI 音乐，以遏制虚假流媒体播放。

谷歌此次通过 SynthID 水印和严格的风格限制策略，试图在技术创新与版权保护之间寻找平衡点。正如谷歌在博文中所述：“我们的目标不是取代音乐家，而是为用户提供一种有趣、独特的自我表达方式，为日常生活添加自定义的配乐。”

现在，任何人都可以访问 Gemini，输入一个想法，让 AI 为你奏响生活的背景音乐。