新型3D感知视频扩散方法DaS：实现对视频生成过程的多样化和精确控制

142 0

香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯农工大学的研究人员推出新型3D感知视频扩散方法“Diffusion as Shader（DaS）”，旨在实现对视频生成过程的多样化和精确控制。DaS通过利用3D跟踪视频作为控制信号，使视频扩散模型能够感知3D信息，从而在统一的架构内支持多种视频控制任务，如网格动画生成、运动转移、摄像机控制和对象操作等。例如，DaS可以根据用户设计的3D动画网格，生成具有丰富细节和真实感的视频，或者将一个视频中的运动模式转移到另一个视频中，同时保持新的风格或内容。

项目主页：https://igl-hkust.github.io/das
GitHub：https://github.com/IGL-HKUST/DiffusionAsShader

主要功能

网格动画生成：将简单的3D动画网格转换为高质量的视频，使基本的网格动画具有更丰富的视觉效果和细节。
运动转移：从一个源视频中提取运动模式，并将其应用到另一个视频中，同时根据文本提示改变视频的风格或内容。
摄像机控制：通过精确控制摄像机的运动轨迹，生成具有特定视角和视角变化的视频，增强视频的真实感和用户参与度。
对象操作：对视频中的特定对象进行精确控制，如移动、旋转等，实现对象的多样化运动。

主要特点

3D感知能力：DaS利用3D跟踪视频作为控制信号，使模型能够感知视频的3D结构和运动信息，从而实现更精确和多样化的视频控制。
统一架构：在一个统一的模型架构内支持多种视频控制任务，无需针对每个任务进行复杂的模型调整或训练，提高了模型的灵活性和实用性。
数据高效：仅需少量的微调数据（不到10k视频）和较短的训练时间（3天），即可获得强大的控制能力，降低了模型训练的成本和复杂度。

工作原理

DaS的工作原理主要基于以下几个关键步骤：

3D跟踪视频生成：根据不同的控制任务，生成相应的3D跟踪视频。这些视频由一组移动的3D点组成，其颜色由它们在第一帧中的坐标决定，从而表示视频的底层3D运动。
条件注入：将3D跟踪视频作为条件输入到视频扩散模型中。通过预训练的VAE编码器对3D跟踪视频进行编码，然后使用可训练的条件DiT（扩散变换器）处理编码后的潜在向量，并将其特征注入到去噪过程中。
视频生成：在去噪过程中，模型根据输入的图像和3D跟踪视频生成视频。3D跟踪视频提供了视频生成的3D控制信号，使生成的视频能够遵循3D跟踪视频的运动和结构信息，实现精确的视频控制。