多视角视频生成新技术SynCamMaster:能够从不同的视点生成同步的、一致性高的动态场景视频

浙江大学、快手科技、清华大学和香港中文大学的研究人员推出一种用于多视角视频生成的技术SynCamMaster,能够从不同的视点生成同步的、一致性高的动态场景视频。这项技术特别适用于虚拟拍摄等应用,它通过利用现有的文本到视频的扩散模型,增强了模型在多摄像机视频生成方面的能力,确保了不同视点间的内容一致性。

例如,我们有一个场景,其中有一个年轻美丽的女孩穿着粉色裙子在弹钢琴。使用SynCamMaster,我们可以从多个不同的摄像机位置生成这个场景的视频,例如,从左侧、右侧、上方或下方视角。这些视频将展现出相同的动态场景,但每个视频的视角和视点都会有所不同,同时保持场景中对象的一致性和几何结构。

主要功能:

  1. 多视角视频生成:SynCamMaster能够根据文本提示生成多个视角的视频。
  2. 视点间同步:确保不同视点生成的视频在内容和几何结构上保持一致。
  3. 无需训练:作为一个即插即用的模块,SynCamMaster可以直接应用于预训练的文本到视频模型,无需额外的训练。

主要特点:

  1. 多视图同步模块:通过引入多视图同步模块来保持不同视点间的一致性。
  2. 混合数据训练方案:利用多摄像机图像、单目视频和虚幻引擎渲染的多摄像机视频来补充训练数据。
  3. 新视角视频合成:支持从新视角重新渲染输入视频的能力。

工作原理:

SynCamMaster的工作流程包括以下几个步骤:

  1. 预训练模型:使用一个预训练的文本到视频的扩散模型作为基础。
  2. 摄像机编码器:将摄像机的外在参数编码到嵌入空间。
  3. 多视图同步模块:在每个变换器块中插入多视图同步模块,以实现视图间的几何和视觉一致性。
  4. 混合数据训练:结合多视图图像、单目视频和虚幻引擎渲染的多视图视频进行训练,以提高模型的泛化能力。
  5. 新视角视频合成:通过引入参考视频,将SynCamMaster扩展到新视角视频合成任务。

    0

    评论0

    没有账号?注册  忘记密码?