谷歌周三正式宣布,其旗舰 AI 助手 Gemini 迎来重大功能升级——集成音乐生成能力。这一新功能由谷歌旗下 DeepMind 团队最新研发的 Lyria 3 模型驱动,目前正处于测试阶段,面向全球 18 岁以上的用户开放。

这意味着,用户只需通过简单的文字描述或上传一张照片,即可在几秒钟内获得一首带有歌词、伴奏甚至定制封面艺术的完整音乐片段。
核心功能:多模态输入与精细化控制
Lyria 3 模型在音频生成的真实性、复杂度和可控性上较前代有了显著提升。在 Gemini 应用中,用户可以通过两种主要方式激发创作灵感:
- 文本到曲目(Text-to-Track):用户可以描述特定的流派、情绪、场景甚至是“内部笑话”。例如,输入“创作一首关于袜子寻找另一半的喜剧 R&B 慢歌”,Gemini 将在数十秒内生成一段 30 秒的曲目,并自动匹配由 Nano Banana 模型生成的专属封面艺术。
- 图像/视频到曲目(Media-to-Track):用户上传照片或视频后,AI 会分析媒体文件的情绪基调,创作出与之完美契合的背景音乐和歌词。
除了自动生成,用户还拥有更高的创意控制权,可以调整音乐的风格、人声类型(如男声、女声、合唱等)以及节奏快慢,以满足个性化需求。值得注意的是,生成的歌词不再需要用户提供,Lyria 3 会根据提示词自动创作。
版权与伦理:拒绝模仿,拥抱原创
面对音乐行业对 AI 侵犯版权的担忧,谷歌在此次更新中强调了“负责任开发”的原则:
- 禁止直接模仿:谷歌明确表示,Lyria 3 旨在促进原创表达,而非模仿现有艺术家。如果用户在提示词中输入某位知名歌手的名字,Gemini 不会直接模仿其声音,而是将其作为风格参考,创作一首具有相似情绪或流派特征的原创曲目。
- 内容过滤机制:系统内置了过滤器,会将生成内容与现有库进行比对,以防止侵权输出。
- SynthID 水印技术:所有通过 Lyria 3 生成的音乐都嵌入了谷歌自主研发的 SynthID 数字水印。这是一种人耳无法察觉但机器可识别的标记,用于标识内容为 AI 生成。
- 反向验证功能:谷歌还在 Gemini 中新增了音频验证工具。用户可以上传任意音频文件询问:“这是 AI 生成的吗?”Gemini 将通过检测 SynthID 水印并结合推理能力,给出判断结果。
生态扩展:从个人娱乐到创作者经济
此次更新不仅限于 Gemini 个人用户。谷歌同时宣布,将 Dream Track 功能的适用范围从美国扩展至全球 YouTube 创作者。创作者可以利用 Lyria 3 为短视频定制高质量的原创配乐,无论是抒情段落还是背景节奏,都能实现高度自定义,从而提升视频内容的独特性。
对于 Google AI Plus、Pro 和 Ultra 订阅用户,谷歌还提供了更高的生成额度,以满足高频创作需求。
语言支持与发布计划
目前,该功能已登陆 Web 端(gemini.google.com),并将在未来几天内推送至 移动应用。支持的语言包括英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语,谷歌计划在未来进一步扩大语言覆盖范围。
行业背景:机遇与挑战并存
AI 音乐生成的兴起在业界引发了复杂反响。一方面,Spotify、YouTube 等平台正积极探索与唱片公司合作,试图将 AI 音乐商业化;另一方面,多家 AI 公司正面临来自音乐界的版权诉讼,争议焦点集中在训练数据的合法性上。与此同时,Deezer 等平台已推出工具标记 AI 音乐,以遏制虚假流媒体播放。
谷歌此次通过 SynthID 水印和严格的风格限制策略,试图在技术创新与版权保护之间寻找平衡点。正如谷歌在博文中所述:“我们的目标不是取代音乐家,而是为用户提供一种有趣、独特的自我表达方式,为日常生活添加自定义的配乐。”
现在,任何人都可以访问 Gemini,输入一个想法,让 AI 为你奏响生活的背景音乐。


![Black Forest Labs推出FLUX.1 [pro]微调API](https://pic.sd114.wiki/wp-content/uploads/2025/01/1737135577-FLUX-Pro-2.webp~tplv-o4t1hxlaqv-image.image)












