新型视频重建模型Vidu4D：能够从单个生成的视频创建高保真的4D重建

清华大学、生数科技和同济大学的研究人员推出新型视频重建模型 Vidu4D，它能够从单个生成的视频创建高保真的4D重建（即连续的3D表示）。这项技术的核心是处理非刚性物体的动态变化和视频帧的失真问题，这对于创建具有空间和时间连贯性的高保真虚拟内容至关重要。Vidu4D目前还有一些限制，例如对视频质量的依赖、大规模场景的可扩展性挑战以及实时应用中的计算困难。此外，与所有生成技术一样，存在产生误导性内容的风险，需要谨慎对待。

项目主页：https://vidu4d-dgs.github.io
GitHub：https://github.com/yikaiw/vidu4d

通过Vidu4D，研究人员展示了如何将文本描述转换为逼真的视频内容，并进一步将其重建为4D模型。例如，给定文本提示“一只戴着单颗珍珠耳环、眼神深邃的橘猫”，Vidu4D可以生成该场景的视频，并创建出能够从不同角度和时间点观察的4D模型。这种能力为创建逼真的虚拟环境和对象提供了强大的技术支持。

主要功能和特点：

高保真4D重建：Vidu4D能够精确地重建动态场景的4D表示，捕捉物体随时间的运动和变形。
动态高斯曲面元素（DGS）技术：这是Vidu4D的核心，它通过优化时间变化的变形函数，将高斯曲面元素从静态状态转换为动态变形状态。
结构完整性保持：通过设计基于连续变形场的几何正则化，保持与实际表面对齐的高斯曲面元素的结构完整性。
旋转和缩放参数的精细调整：学习高斯曲面元素的旋转和缩放参数的精细调整，减少变形过程中的纹理闪烁，并提高对细节的捕捉。
新颖的初始化状态：为DGS中的变形场提供适当的起始点。

工作原理：

Vidu4D的工作流程包括两个关键阶段：

初始化非刚性变形场：首先，使用神经隐式表面（Neural SDF）来初始化变形场，这有助于快速稳定地收敛。
动态高斯曲面元素（DGS）：在初始化之后，DGS阶段开始工作。DGS通过学习非刚性变形函数，将高斯曲面元素从静态转换为动态变形状态，以准确表示随时间变化的运动和变形。此外，DGS还包含一个双分支结构，用于精细调整高斯曲面元素的旋转和缩放参数，并通过变形状态的几何正则化来确保精确的几何表示。