谷歌推出CamViG:控制视频生成过程中的相机视角,从而生成具有精确相机运动的视频

Google Research推出CamViG(Camera Aware Image-to-Video Generation),它能够根据单一图像和三维相机运动信号生成视频。这项技术的核心在于,它能够控制视频生成过程中的相机视角,从而生成具有精确相机运动的视频。例如,你有一张静态的风景照片,但你想要一个视频,展示你在这风景中四处走动的场景。使用CamViG,你只需指定相机应该如何移动(比如向上、向下、左右移动或者推进、拉远),它就能根据这些指令生成一段视频,其中相机视角的变化就像真的有人在场景中移动一样。

总的来说,CamViG提供了一种强大的工具,可以在视频生成中精确控制相机视角,这在以往的技术中是很难实现的。这项技术的应用前景非常广泛,可以极大地丰富视频内容的创作和生成方式。

主要功能:

  1. 三维相机运动控制:能够根据指定的三维相机路径生成视频。
  2. 场景动态保持:在控制相机视角的同时,保持场景中的动态元素。
  3. 自动绘制和填充:自动处理生成视频中所有新露出和不可见区域的绘制和填充。

主要特点:

  • 无需文本提示:与常见的基于文本的视频生成方法不同,CamViG通过非文本输入(三维相机路径)来控制视频生成。
  • 使用多模态变换器:将三维相机运动作为条件信号,结合到多模态变换器中。
  • 利用NeRF生成训练数据:使用Neural Radiance Fields(NeRF)技术生成训练视频和相机路径数据。

工作原理:

CamViG的工作原理可以分为以下几个步骤:

  1. 数据生成:使用NeRF技术生成具有真实感光照和细节的合成视频数据。
  2. 视频和相机路径的标记化:将视频和相机路径转换成离散的标记,以便用于变换器模型。
  3. 变换器模型训练:在视频延续任务上预训练模型,然后在此基础上训练相机运动任务。
  4. 相机路径的表示:将相机路径数据转换为适合变换器架构的标记序列。
  5. 视频生成:给定输入图像和相机路径,生成一系列视频帧,其中第一帧是输入图像,后续帧跟随相机路径。

具体应用场景:

  1. 虚拟现实和增强现实:在VR和AR中生成具有真实相机运动的视频内容。
  2. 电影和视频制作:用于生成复杂场景的相机运动,减少实际拍摄需要。
  3. 游戏开发:为游戏环境创造动态的背景视频。
  4. 室内设计和可视化:展示室内设计在不同视角和光照条件下的效果。
0

评论0

没有账号?注册  忘记密码?