香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯农工大学的研究人员推出新型3D感知视频扩散方法“Diffusion as Shader(DaS)”,旨在实现对视频生成过程的多样化和精确控制。DaS通过利用3D跟踪视频作为控制信号,使视频扩散模型能够感知3D信息,从而在统一的架构内支持多种视频控制任务,如网格动画生成、运动转移、摄像机控制和对象操作等。例如,DaS可以根据用户设计的3D动画网格,生成具有丰富细节和真实感的视频,或者将一个视频中的运动模式转移到另一个视频中,同时保持新的风格或内容。
主要功能
- 网格动画生成:将简单的3D动画网格转换为高质量的视频,使基本的网格动画具有更丰富的视觉效果和细节。
- 运动转移:从一个源视频中提取运动模式,并将其应用到另一个视频中,同时根据文本提示改变视频的风格或内容。
- 摄像机控制:通过精确控制摄像机的运动轨迹,生成具有特定视角和视角变化的视频,增强视频的真实感和用户参与度。
- 对象操作:对视频中的特定对象进行精确控制,如移动、旋转等,实现对象的多样化运动。
主要特点
- 3D感知能力:DaS利用3D跟踪视频作为控制信号,使模型能够感知视频的3D结构和运动信息,从而实现更精确和多样化的视频控制。
- 统一架构:在一个统一的模型架构内支持多种视频控制任务,无需针对每个任务进行复杂的模型调整或训练,提高了模型的灵活性和实用性。
- 数据高效:仅需少量的微调数据(不到10k视频)和较短的训练时间(3天),即可获得强大的控制能力,降低了模型训练的成本和复杂度。
工作原理
DaS的工作原理主要基于以下几个关键步骤:
- 3D跟踪视频生成:根据不同的控制任务,生成相应的3D跟踪视频。这些视频由一组移动的3D点组成,其颜色由它们在第一帧中的坐标决定,从而表示视频的底层3D运动。
- 条件注入:将3D跟踪视频作为条件输入到视频扩散模型中。通过预训练的VAE编码器对3D跟踪视频进行编码,然后使用可训练的条件DiT(扩散变换器)处理编码后的潜在向量,并将其特征注入到去噪过程中。
- 视频生成:在去噪过程中,模型根据输入的图像和3D跟踪视频生成视频。3D跟踪视频提供了视频生成的3D控制信号,使生成的视频能够遵循3D跟踪视频的运动和结构信息,实现精确的视频控制。
具体应用场景
- 广告和影视制作:DaS可以帮助制作人员根据创意需求快速生成具有特定风格和运动效果的视频,如将产品动画与实际场景结合,或者为影视作品创造逼真的特效场景。
- 游戏开发:在游戏开发中,DaS可以用于生成具有丰富动态效果的游戏过场动画或背景视频,提升游戏的视觉效果和玩家的沉浸感。
- 虚拟现实和增强现实:DaS可以为虚拟现实和增强现实应用提供高质量的视频内容,使用户能够体验到更加真实和互动的虚拟环境。
评论0