英伟达等提出 Lyra:基于自蒸馏的单图生成3D/4D场景新框架

3D模型2个月前发布 小马良
211 0

从游戏开发到机器人仿真,构建高质量虚拟环境的能力至关重要。然而,传统3D重建依赖多视角真实数据采集,成本高且难以规模化;而当前强大的视频扩散模型虽具备出色“想象力”,却受限于2D输出,无法满足需要空间交互的应用需求。

为此,来自 英伟达、多伦多大学、矢量研究所(Vector Institute)和西蒙弗雷泽大学 的研究人员联合提出 Lyra ——一种新型3D与4D场景生成框架,能够仅从单张图像或单目视频中生成显式的3D高斯点云(3D Gaussian Splatting, 3DGS)表示,支持实时渲染与动态交互。

该方法无需任何真实世界的多视角训练数据,通过“自蒸馏”机制,将预训练视频扩散模型中的隐式3D知识转化为可渲染的显式几何结构。

英伟达等提出 Lyra:基于自蒸馏的单图生成3D/4D场景新框架

核心思想:用AI教AI理解三维世界

Lyra 的核心在于知识迁移:利用一个已经掌握丰富视觉-运动规律的视频扩散模型作为“教师”,指导另一个网络学习如何生成对应的3D结构。

具体来说:

  • 教师模型是预训练的相机控制视频扩散模型(如 GEN3C),能根据指定相机轨迹生成连贯的多视角视频;
  • 学生模型是一个新增的 3DGS 解码器,目标是从相同潜在空间直接解码出3D高斯点云;
  • 训练过程中,冻结教师模型,仅训练3DGS解码器,并使其渲染结果与教师生成的RGB画面对齐。

这一过程称为“自蒸馏”——即同一系统内部的知识转移,避免了对真实3D标注或同步多视角数据的依赖。

技术实现:如何让2D模型教会3D生成?

1. 双分支架构设计

在训练阶段,模型包含两个解码通路:

  • RGB 解码器(已冻结):生成标准2D视频帧;
  • 3DGS 解码器(待训练):输出显式3D高斯分布集合。

通过最小化3DGS渲染图像与RGB输出之间的差异(如L1、SSIM、LPIPS损失),迫使3D结构逼近真实视图一致性。

2. 多轨迹监督提升泛化能力

为扩大视角覆盖并减少几何畸变,Lyra 在训练时采样多个虚拟相机轨迹,生成多样化的观察序列,增强学生模型对不同视角组合的理解能力。

3. 动态扩展至4D:时间维度建模

对于视频输入,Lyra 进一步扩展至动态3D场景生成(即4D,含时间轴)。其关键改进包括:

  • 引入动态数据增强策略:反转输入视频帧序,生成额外监督信号;
  • 确保每个时间步都被充分建模,防止早期帧出现低不透明度伪影;
  • 输出随时间演化的3DGS状态序列,支持回放、暂停与视角切换。
英伟达等提出 Lyra:基于自蒸馏的单图生成3D/4D场景新框架

推理流程:从输入到实时渲染

推理阶段完全脱离教师模型,仅使用训练好的3DGS解码器:

  1. 输入:一张图像 或 一段单目视频;
  2. 模型推断:生成对应的3D高斯点云(静态)或带时间索引的动态点云序列(4D);
  3. 渲染:使用原生3DGS渲染器实现实时可视化,支持自由视角漫游与交互。

整个过程前馈完成,无迭代优化,适合部署于模拟、AR/VR等低延迟场景。

性能表现:超越现有方法

实验表明,Lyra 在多个基准上达到最先进水平

数据集指标Lyra 表现
RealEstate10K (静态)PSNR / SSIM / LPIPS21.79 / 0.752 / 0.219
Tanks-and-Temples (静态)均优于NeRF、3DGS基线方法
Lyra 自建动态数据集PSNR / SSIM / LPIPS23.07 / 0.779 / 0.231

相比直接使用 GEN3C 生成视频再尝试逆向重建的方法(如 BTimer),Lyra 显著提升了空间一致性和细节保真度。

消融实验也验证了以下设计的有效性:

  • 深度损失:防止生成扁平化几何;
  • 不透明度剪枝:提升渲染效率,降低冗余点数量;
  • 多视图融合机制:缓解长期一致性问题。
© 版权声明

相关文章

暂无评论

none
暂无评论...