谷歌 Vertex AI 对四大生成工具全面升级：视频Veo 2、图像Imagen 3、语音Chirp 3和音乐Lyria

266 0

在最近的 Google Cloud Next 大会上，谷歌宣布了 Vertex AI 的一系列重大更新，这些更新涵盖了视频、图像、语音和音乐生成等多个领域。Vertex AI 是 Google Cloud 提供的完全托管的统一 AI 开发平台，此次更新使其成为唯一一个能够覆盖所有这些模态的生成媒体模型平台。以下是这些更新的详细内容：

1. Lyria：文本转音乐模型

谷歌的文本转音乐模型 Lyria 现已以 受邀预览 模式登陆 Vertex AI。这意味着用户可以从简单的文本提示开始，生成完整的、生产就绪的音乐资产。Lyria 能够生成高保真音频，捕捉微妙的音乐细节，并提供多种音乐流派的丰富作品。
应用场景：

品牌体验提升：为营销活动、产品发布或沉浸式店内体验快速创建定制配乐，增强品牌的情感连接和记忆度。
内容创作简化：为视频制作、播客和数字内容创作生成与内容情绪、节奏和叙事直接契合的定制音乐曲目，加速生产流程并降低许可成本。

2. Veo 2：视频生成与编辑功能

谷歌的先进视频生成模型 Veo 2 推出了新的编辑和相机控制功能，以 受邀预览 模式提供。这些功能帮助企业客户更精准地调整和重用视频内容，将 Veo 从生成工具转变为全面的视频创建和编辑平台。
新功能：

修复（Inpainting）：移除视频中不需要的背景图像、标志或干扰物，实现干净、专业的编辑效果。
扩展（Outpainting）：扩展现有视频素材的框架，适应不同屏幕尺寸和纵横比，例如将横向视频转换为纵向格式。
复杂电影技术实现：指导镜头构图、相机角度和节奏，轻松使用复杂的电影技术，无需复杂的提示或专业知识。
插值（Interpolation）：通过定义视频序列的开头和结尾，无缝生成中间连接帧，确保平滑过渡和视觉连贯性。

3. Chirp 3：语音生成与理解功能

谷歌的音频生成与理解模型 Chirp 3 现包含两项新功能，以 受邀预览 模式提供：

Instant Custom Voice：仅需 10 秒音频输入即可创建自定义语音，适用于个性化呼叫中心、开发可访问内容和建立独特品牌语音。
带说话者分离的转录（Transcription with Diarization）：在多人录音中准确分离并识别各个说话者，提升转录的清晰度和可用性，适用于会议摘要、播客分析和多人通话记录等应用。