香港中文大学、腾讯PCG ARC实验室和北京大学的研究人员推出新型多视图生成新视角合成(NVS)模型NVComposer,它能够从少量未对准的稀疏图像中生成新视角的视图,而无需依赖外部的多视图对齐过程,如显式的姿态估计或预重建。这项技术的核心在于其创新的双流扩散模型和几何感知特征对齐模块,使其在处理未对准的输入视图时表现出色。
- 项目主页:https://lg-li.github.io/project/nvcomposer
- GitHub:https://github.com/TencentARC/NVComposer
- Demo:https://huggingface.co/spaces/TencentARC/NVComposer
例如,你有几张照片,这些照片是从不同角度拍摄的同一场景,但这些照片并没有精确的对齐信息。使用NVComposer,你可以将这些照片作为输入,模型将自动推断出空间和几何关系,并生成一个全新的视角视图,这个视图在视觉上与输入的照片保持一致,并且能够填补场景中未见的部分。
主要功能
NVComposer的主要功能包括:
- 无需外部对齐:能够从未对准的输入视图中生成新视角视图,无需依赖外部的多视图对齐过程。
- 双流扩散模型:同时生成目标新视图和隐式预测条件图像的姿态。
- 几何感知特征对齐:利用预训练的密集立体模型提取的几何先验,提高生成视图的视图一致性。
主要特点
- 灵活性:能够处理稀疏和未对准的输入视图,提高了模型的适用性和灵活性。
- 鲁棒性:即使在输入视图重叠区域小、遮挡严重的情况下也能生成合理的结果。
- 端到端学习:通过隐式地从输入视图中学习空间关系,NVComposer能够在不需要额外步骤的情况下进行端到端的训练和推理。
工作原理
NVComposer的工作原理涉及以下几个步骤:
- 双流扩散模型:该模型包括图像流和姿态流,用于同时生成新视图和预测输入视图的姿态。
- 几何感知特征对齐模块:在训练期间,该模块使用预训练的密集立体模型提取的几何先验来对齐模型的内部特征,从而提高生成视图的几何准确性。
- 训练目标:模型通过结合扩散损失和特征对齐损失进行训练,以预测噪声并最小化与真实视图之间的差异。
具体应用场景
NVComposer的应用场景包括:
- 虚拟现实和增强现实:在VR和AR应用中,NVComposer可以用于从有限的视角合成新的视角视图,增强用户体验。
- 内容创作:在影视制作和游戏开发中,NVComposer可以帮助创作者从不同角度生成场景视图,提高内容的丰富性和吸引力。
- 3D建模和渲染:在3D建模领域,NVComposer可以从少量视角合成新视角,辅助3D模型的构建和渲染。
- 安全监控:在安全监控领域,NVComposer可以从不同角度合成监控场景,提高监控系统的覆盖范围和有效性。
评论0