字节跳动推出新型视频生成技术CamTrol:为现有的视频扩散模型增添摄像机运动操控功能

中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol,这是一种无需训练的、强大的解决方案,可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说,就是可以在不经过额外训练的情况下,让预训练的视频生成模型根据一张图片或者一段文字提示,生成具有特定相机运动的视频。

CamTrol能够便捷地与多数预训练视频扩散模型集成,仅需一张图片或文本指令作为输入,即可产出可调控摄像机运动的视频内容。CamTrol分两步走:第一步,在三维点云环境中模拟明确的摄像机移动,以此来塑造图像布局的重新配置;第二步,利用一系列经调整后的图像所构建的噪声潜在布局先验,生成融入摄像机运动的视频片段。广泛的实验验证了我们方法在驾驭生成视频中摄像机运动方向和速度方面的高度稳健性。更进一步,我们证明了CamTrol在创造含有动态场景的3D旋转视频方面同样能取得令人瞩目的成效。

论文还提到了CamTrol的一些定性结果,展示了它在生成3D旋转视频和处理复杂相机运动方面的能力。例如,它可以生成一个穿着太空服的小狗在不同角度下的视频,就像真的有一个相机在绕着小狗旋转一样。这种技术可以应用于电影制作、虚拟现实内容创建,或者任何需要动态视频内容的场景。

主要功能与特点:

  • 无需训练:CamTrol不需要在带有相机标注的数据集上进行监督微调,也不需要通过数据增强进行自监督训练。
  • 即插即用:它可以与大多数预训练的视频扩散模型配合使用,实现对生成视频的相机运动控制。
  • 两阶段过程:首先,在3D点云空间中模拟图像布局的重排,然后利用噪声潜在表示中的布局先验生成具有相机运动的视频。
  • 强大的控制能力:能够处理基本的相机运动、混合运动以及复杂的轨迹,并能生成具有动态内容的3D旋转视频。

工作原理:

  1. 3D点云表示:将输入图像的像素提升到3D点云表示中,通过估计深度图来初始化点云。
  2. 相机轨迹:设置一系列预定义的相机运动轨迹,包括旋转矩阵和平移矩阵,模拟不同的相机运动。
  3. 多视图渲染:利用点云和相机轨迹生成一系列具有透视变化的图像。
  4. 噪声潜在表示:利用扩散模型的逆过程,根据渲染图像序列构建一系列表示相机运动的噪声潜在表示。
  5. 视频生成:将噪声潜在表示通过视频扩散模型的生成过程,利用其布局可控性引导视频生成。

具体应用场景:

  • 文本到视频的生成:用户可以输入文本提示,比如“一只穿着海军服的小狗在扭动”,并指定相机动作,如“顺时针旋转”,CamTrol能够生成符合描述的视频。
  • 风格化视频制作:可以用于生成具有特定艺术风格(如铅笔画、水彩画)的视频内容。
  • 动态场景展示:例如,生成绕着外星飞船旋转的视角视频,或者展示在公园中行走的人和狗的不同视角。
0

评论0

没有账号?注册  忘记密码?