谷歌正在通过其创新平台 Google Labs,向部分早期用户推出一款全新的 AI 视频创作工具 —— Flow。这款产品可能是此前实验性项目 VideoFX 的升级版,目标是为创作者提供一个更完整、更可控的视频生成流程。

从目前曝光的信息来看,Flow 并非简单的“文本转视频”工具,而是一个集多种输入方式于一体的模块化视频编辑器,支持基于项目的操作和视觉编辑功能,展现出谷歌在 AIGC 视频领域的进一步探索。

三种核心输入方式
Flow 支持以下三种主要输入类型,允许用户灵活地构建视频内容:
- 文本转视频:用户输入描述性文字,AI 自动生成对应的视频内容;
- 帧转视频:提供关键帧图像,由 AI 补全中间动画或过渡效果;
- 素材转视频(最具特色):鼓励用户上传或生成参考对象或角色风格,类似 Whisk 和 Pika 等工具的概念。谷歌建议使用“干净素材”,如纯色背景,以提升模型理解与输出一致性。
这一功能特别适合需要保持角色或风格一致性的动画制作、品牌内容等场景。
模块化流程设计:从场景到剪辑
Flow 的一大亮点是引入了“场景构建”流程,用户可以:
- 扩展单个场景
- 在不同镜头之间添加过渡效果
整个过程依赖于 Gemini 模型进行上下文理解,确保多个片段之间的连贯性和风格统一。这也表明,多模态理解和语义连续性已成为该编辑器的核心能力之一。
信用点系统初现端倪
尽管 Flow 尚处于早期测试阶段,但已有迹象表明它将采用一种信用点(Credit)机制来管理资源消耗:
- Veo 2 Fast:可能作为基础模型免费开放,用于推动初期用户增长;
- Veo 3:高保真模型,据称每段视频生成大约耗时150秒,并消耗相应数量的信用点(约150点);
这种机制不仅反映了高保真视频生成的计算成本,也预示着未来可能会推出分级访问机制,甚至订阅制计划。
背后的技术支撑
据悉,Imagen 4 正在为 Google Vertex 上的正式发布做准备,可能成为 Flow 的视觉生成引擎之一。同时,Imagen 3.5 或将负责基础视觉建模,配合 Veo 完成动态渲染任务。

这显示出谷歌正在整合其多个大模型成果,形成一个完整的 AI 内容创作生态。
战略意义:从演示走向实用
Flow 的出现标志着谷歌 AI 工具的战略转变:从 I/O 大会的展示性产品,逐步走向可落地的创作者工具。
像 NotebookLM 和 AI Studio 这样的产品已经迈出了第一步,而 Flow 则代表着谷歌在视觉媒体生成领域的新尝试,旨在让用户以最小的学习门槛,快速制作风格化、故事驱动的内容。
随着即将到来的 I/O 大会,Flow 很有可能成为谷歌 AI 生态中一个新的重要拼图。