英伟达等提出 Lyra：基于自蒸馏的单图生成3D/4D场景新框架

361 0

从游戏开发到机器人仿真，构建高质量虚拟环境的能力至关重要。然而，传统3D重建依赖多视角真实数据采集，成本高且难以规模化；而当前强大的视频扩散模型虽具备出色“想象力”，却受限于2D输出，无法满足需要空间交互的应用需求。

为此，来自 英伟达、多伦多大学、矢量研究所（Vector Institute）和西蒙弗雷泽大学 的研究人员联合提出 Lyra ——一种新型3D与4D场景生成框架，能够仅从单张图像或单目视频中生成显式的3D高斯点云（3D Gaussian Splatting, 3DGS）表示，支持实时渲染与动态交互。

项目主页：https://research.nvidia.com/labs/toronto-ai/lyra/
GitHub：https://github.com/nv-tlabs/lyra

该方法无需任何真实世界的多视角训练数据，通过“自蒸馏”机制，将预训练视频扩散模型中的隐式3D知识转化为可渲染的显式几何结构。

核心思想：用AI教AI理解三维世界

Lyra 的核心在于知识迁移：利用一个已经掌握丰富视觉-运动规律的视频扩散模型作为“教师”，指导另一个网络学习如何生成对应的3D结构。

具体来说：

教师模型是预训练的相机控制视频扩散模型（如 GEN3C），能根据指定相机轨迹生成连贯的多视角视频；
学生模型是一个新增的 3DGS 解码器，目标是从相同潜在空间直接解码出3D高斯点云；
训练过程中，冻结教师模型，仅训练3DGS解码器，并使其渲染结果与教师生成的RGB画面对齐。

这一过程称为“自蒸馏”——即同一系统内部的知识转移，避免了对真实3D标注或同步多视角数据的依赖。

技术实现：如何让2D模型教会3D生成？

1. 双分支架构设计

在训练阶段，模型包含两个解码通路：

RGB 解码器（已冻结）：生成标准2D视频帧；
3DGS 解码器（待训练）：输出显式3D高斯分布集合。

通过最小化3DGS渲染图像与RGB输出之间的差异（如L1、SSIM、LPIPS损失），迫使3D结构逼近真实视图一致性。

2. 多轨迹监督提升泛化能力

为扩大视角覆盖并减少几何畸变，Lyra 在训练时采样多个虚拟相机轨迹，生成多样化的观察序列，增强学生模型对不同视角组合的理解能力。

3. 动态扩展至4D：时间维度建模

对于视频输入，Lyra 进一步扩展至动态3D场景生成（即4D，含时间轴）。其关键改进包括：

引入动态数据增强策略：反转输入视频帧序，生成额外监督信号；
确保每个时间步都被充分建模，防止早期帧出现低不透明度伪影；
输出随时间演化的3DGS状态序列，支持回放、暂停与视角切换。

推理流程：从输入到实时渲染

推理阶段完全脱离教师模型，仅使用训练好的3DGS解码器：

输入：一张图像或一段单目视频；
模型推断：生成对应的3D高斯点云（静态）或带时间索引的动态点云序列（4D）；
渲染：使用原生3DGS渲染器实现实时可视化，支持自由视角漫游与交互。

整个过程前馈完成，无迭代优化，适合部署于模拟、AR/VR等低延迟场景。

性能表现：超越现有方法

实验表明，Lyra 在多个基准上达到最先进水平：

数据集	指标	Lyra 表现
RealEstate10K (静态)	PSNR / SSIM / LPIPS	21.79 / 0.752 / 0.219
Tanks-and-Temples (静态)	均优于NeRF、3DGS基线方法	✅
Lyra 自建动态数据集	PSNR / SSIM / LPIPS	23.07 / 0.779 / 0.231

相比直接使用 GEN3C 生成视频再尝试逆向重建的方法（如 BTimer），Lyra 显著提升了空间一致性和细节保真度。

消融实验也验证了以下设计的有效性：