北大、字节跳动与卡内基梅隆大学联合推出MoVieS：一秒钟完成4D动态视角合成的革命性模型

183 0

你有没有想象过，仅凭一段普通的手机视频，就能“穿越”到画面中，从任意角度和时间点重新观察整个动态场景？比如在一场足球比赛中，你可以自由“飞行”在球场上空，从不同角度观看球员跑动、球的轨迹，甚至追踪每一个物体的3D运动轨迹。

这一切，MoVieS 正在让它们成为现实。

近日，由北京大学、字节跳动与卡内基梅隆大学联合提出的新模型 MoVieS，首次实现了外观、几何与运动的统一建模，能够在一秒钟内从单目视频中生成高质量的 4D 动态新视角（Dynamic Novel View Synthesis），并支持多种下游任务。

这项成果不仅速度快、泛化能力强，更在无需任务特定监督的情况下，实现了多个任务的零样本应用。

MoVieS（Motion Vector Space） 是一种新型的前馈模型，专门用于从单目视频中重建动态3D场景，并实时生成任意视角的新画面。

它的核心创新在于：使用像素对齐的高斯基元网格表示动态3D场景，并明确建模其随时间变化的运动信息。

简单来说，MoVieS 能够从一段普通视频中提取出场景的“动态结构”，然后让你像操作3D游戏一样，自由切换视角、查看运动轨迹，甚至进行3D点追踪和移动物体分割。

仅凭一段单目视频，MoVieS 可以在任意时间点、任意视角生成全新的画面，实现类似“自由视角视频”的效果。

MoVieS 能联合建模场景的外观（颜色）、几何（形状）与运动（轨迹），从而实现高质量的3D场景重建。

MoVieS 可追踪视频中每个像素点在3D空间中的运动轨迹，为动作分析、视频编辑等任务提供结构化支持。

MoVieS 还能自然支持多种无需额外训练的任务，例如：

MoVieS 的一大亮点是其极高的运行效率。相比传统方法，它能在一秒钟内完成整个4D重建流程，速度提升达几个数量级。

这意味着，MoVieS 不仅适用于科研实验，也具备在工业级视频处理、影视特效、AR/VR、智能视频分析等场景中大规模落地的潜力。

MoVieS 的另一大突破在于：在一个统一的框架中联合建模外观、几何和运动，打破了传统方法中任务割裂的局限。

这种统一建模方式不仅提升了模型的泛化能力，也为后续任务提供了更强的结构化输出。

MoVieS 可在包含静态与动态场景的多样化数据集上进行大规模训练，显著减少了对特定任务监督信号的依赖。

这使得 MoVieS 在面对未见过的场景或任务时，依然能保持良好的表现。

MoVieS 的核心架构包括以下几个关键步骤：

动态场景表示：使用“动态溅射像素”（Dynamic Splatter Pixels）表示场景，将每个像素映射为一个3D高斯基元，并建模其随时间的变化。
特征提取与融合：通过预训练的 Transformer 主干网络提取视频帧特征，并融合相机参数和时间信息。
多任务预测头：包括深度头（Depth Head）、溅射头（Splatter Head）和运动头（Motion Head），分别预测深度、外观属性和运动属性。
可微渲染：利用可微分的3D高斯渲染框架，将预测的3D高斯原语渲染为图像，用于监督训练。