谷歌 Vertex AI 对四大生成工具全面升级:视频Veo 2、图像Imagen 3、语音Chirp 3和音乐Lyria

早报1周前发布 小马良
37 0

在最近的 Google Cloud Next 大会上,谷歌宣布了 Vertex AI 的一系列重大更新,这些更新涵盖了视频、图像、语音和音乐生成等多个领域。Vertex AI 是 Google Cloud 提供的完全托管的统一 AI 开发平台,此次更新使其成为唯一一个能够覆盖所有这些模态的生成媒体模型平台。以下是这些更新的详细内容:

1. Lyria:文本转音乐模型

谷歌的文本转音乐模型 Lyria 现已以 受邀预览 模式登陆 Vertex AI。这意味着用户可以从简单的文本提示开始,生成完整的、生产就绪的音乐资产。Lyria 能够生成高保真音频,捕捉微妙的音乐细节,并提供多种音乐流派的丰富作品。
应用场景

  • 品牌体验提升:为营销活动、产品发布或沉浸式店内体验快速创建定制配乐,增强品牌的情感连接和记忆度。
  • 内容创作简化:为视频制作、播客和数字内容创作生成与内容情绪、节奏和叙事直接契合的定制音乐曲目,加速生产流程并降低许可成本。

2. Veo 2:视频生成与编辑功能

谷歌的先进视频生成模型 Veo 2 推出了新的编辑和相机控制功能,以 受邀预览 模式提供。这些功能帮助企业客户更精准地调整和重用视频内容,将 Veo 从生成工具转变为全面的视频创建和编辑平台。
新功能

  • 修复(Inpainting):移除视频中不需要的背景图像、标志或干扰物,实现干净、专业的编辑效果。
  • 扩展(Outpainting):扩展现有视频素材的框架,适应不同屏幕尺寸和纵横比,例如将横向视频转换为纵向格式。
  • 复杂电影技术实现:指导镜头构图、相机角度和节奏,轻松使用复杂的电影技术,无需复杂的提示或专业知识。
  • 插值(Interpolation):通过定义视频序列的开头和结尾,无缝生成中间连接帧,确保平滑过渡和视觉连贯性。

3. Chirp 3:语音生成与理解功能

谷歌的音频生成与理解模型 Chirp 3 现包含两项新功能,以 受邀预览 模式提供:

  • Instant Custom Voice:仅需 10 秒音频输入即可创建自定义语音,适用于个性化呼叫中心、开发可访问内容和建立独特品牌语音。
  • 带说话者分离的转录(Transcription with Diarization):在多人录音中准确分离并识别各个说话者,提升转录的清晰度和可用性,适用于会议摘要、播客分析和多人通话记录等应用。

4. Imagen 3:图像生成与修复功能

谷歌的文本转图像模型 Imagen 3 进行了重大改进,生成的图像细节更佳、光线更丰富,且干扰伪影更少。此外,Imagen 3 的修复功能也得到了显著提升,能够重建图像中缺失或损坏的部分,并提供更自然、无缝的物体移除编辑体验。

谷歌 Vertex AI 对四大生成工具全面升级:视频Veo 2、图像Imagen 3、语音Chirp 3和音乐Lyria

企业级安全与保障

遵循谷歌的 AI 原则,Lyria、Veo 2、Chirp 3 和 Imagen 3 在 Vertex AI 上的开发和部署以安全和责任为核心,内置了以下预防措施:

  • 数字水印:Google DeepMind 的 SynthID 将隐形水印嵌入生成的每张图像、视频和音频帧中,减少误传和误归属问题。
  • 安全过滤器:防止生成有害内容,遵循 Google 的 负责任 AI 原则
  • 数据治理:根据 Google Cloud 的数据治理和隐私控制,谷歌不会使用客户数据训练模型,确保数据安全。
  • 版权赔偿:谷歌的 赔偿政策 为版权问题提供保障,用户无需担心第三方知识产权索赔。
© 版权声明

相关文章

暂无评论

none
暂无评论...