新型视频生成框架GS-DiT：通过伪4D高斯场实现对视频内容的精确4D控制

369 0

香港中文大学多媒体实验室、博智感知交互研究中心和Avolution AI的研究人员推出新型视频生成框架GS-DiT，旨在通过伪4D高斯场实现对视频内容的精确4D控制。GS-DiT通过构建伪4D高斯场并结合高效的密集3D点跟踪技术，使得视频生成模型能够在不依赖多视角视频的情况下，实现多相机拍摄、推拉镜头等复杂的镜头语言。例如，GS-DiT可以根据一个单视角视频生成多视角拍摄的视频，同时支持对相机参数和对象运动的精细控制，从而在视频生成中实现更丰富的视觉效果和创意表达。

项目主页：https://wkbian.github.io/Projects/GS-DiT
GitHub：https://github.com/wkbian/GS-DiT

主要功能

多相机拍摄视频生成：GS-DiT能够根据单视角视频生成多视角拍摄的视频，模拟不同相机视角下的场景变化。
相机参数控制：支持对相机内参和外参的调整，实现推拉镜头等效果，增强视频的视觉冲击力和表现力。
对象运动编辑：允许对视频中的对象运动进行编辑，如改变对象的运动轨迹或速度，实现更复杂的场景动态变化。

主要特点

伪4D高斯场构建：通过密集3D点跟踪技术构建伪4D高斯场，无需复杂的优化过程，即可高效地为视频生成提供4D控制信号。
高效的3D点跟踪：提出的D3D-PT方法在精度和速度上均优于现有的3D点跟踪技术，为伪4D高斯场的构建提供了强有力的支持。
强大的4D控制能力：不仅支持相机视角的切换，还能够对相机内参和对象运动进行精细控制，极大地扩展了视频生成的创意空间和应用范围。

工作原理

GS-DiT的工作流程主要包括以下几个步骤：

伪4D高斯场构建：首先，利用D3D-PT方法对输入视频进行密集3D点跟踪，估计出每个像素在视频帧中的3D轨迹。然后，根据这些3D轨迹构建伪4D高斯场，其中每个高斯元的参数（如位置、颜色等）由跟踪结果直接确定。
视频渲染与生成：在训练阶段，根据伪4D高斯场渲染出一系列指导视频，并将这些指导视频作为条件输入到预训练的DiT模型中进行微调，使其能够生成与指导视频一致的高质量视频。在推理阶段，根据新的相机参数或其他4D控制信号，重新渲染伪4D高斯场，并利用微调后的DiT模型生成最终的视频。
4D控制实现：通过调整相机参数（如内参和外参）和编辑伪4D高斯场中的对象运动信息，实现对生成视频的4D控制，从而生成具有不同视角、镜头效果和对象动态的多样化视频。

具体应用场景

影视制作：在影视后期制作中，GS-DiT可以帮助制作人员快速生成具有复杂镜头语言和丰富场景动态的视频片段，节约拍摄成本和时间，同时提升影视作品的视觉效果和艺术表现力。
虚拟现实与游戏开发：在虚拟现实和游戏开发中，GS-DiT可以用于生成逼真的虚拟场景视频，为玩家提供沉浸式的视觉体验，增强游戏的互动性和趣味性。
广告与营销：在广告和营销领域，GS-DiT能够根据产品特点和营销需求，生成具有创意和吸引力的广告视频，突出产品优势，提升品牌形象和市场竞争力。
教育与培训：在教育和培训中，GS-DiT可以用于制作教学视频和培训材料，通过生动的视频内容和丰富的视觉效果，提高学习者的兴趣和学习效果。