香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig,它能够从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料。这个框架通过利用多光源扩散模型生成的辅助图像来增强内在估计,从而解决了从单一图像中恢复物体几何和材料的挑战。
- 项目主页:https://projects.zxhezexin.com/neural-lightrig
- GitHub:https://github.com/ZexinHe/Neural-LightRig
例如,我们有一张在单一光源下拍摄的物体图片,我们希望在不同的环境光照条件下重新渲染这个物体,以用于一个视频游戏的场景。使用Neural LightRig,我们可以首先生成在多个不同方向点光源下照射的一致性图像,然后利用这些图像来训练G-buffer模型,最终预测出物体的表面法线和PBR材料。这样,我们就能够在各种环境光照下重新渲染出具有真实感的物体图像,实现逼真的视觉效果。
主要功能
- 表面法线估计:从单张图片中估计物体表面的法线,这对于理解物体的3D结构至关重要。
- PBR材料估计:估计物体的PBR材料属性,包括反照率(albedo)、粗糙度(roughness)和金属度(metallic)。
- 多光源图像生成:利用扩散模型生成在不同方向点光源下照射的一致性图像,以减少估计不确定性。
主要特点
- 多光源扩散模型:通过大规模扩散模型的照明先验构建的多光源扩散模型,能够生成多个一致的图像,每个图像由不同方向的点光源照亮。
- 大型G-buffer模型:使用U-Net骨干网络训练的大型G-buffer模型,能够准确预测表面法线和材料。
- 数据增强策略:设计了一系列数据增强策略,以弥合由扩散模型生成的多光源图像与3D对象渲染的图像之间的域差距。
工作原理
Neural LightRig的工作流程包括两个主要阶段:
- 多光源扩散:首先,利用从大规模扩散模型中获得的照明先验,构建一个多光源扩散模型。这个模型能够从输入的单张图片生成多个在不同点光源下照明的一致性图像。
- 大型G-buffer模型预测:然后,使用这些变化的照明图像来减少估计不确定性,并训练一个大型G-buffer模型来预测表面法线和PBR材料。
具体应用场景
- 虚拟现实和增强现实:在VR和AR中,Neural LightRig可以用来从用户提供的单张图片中生成具有真实感的3D对象,增强用户体验。
- 游戏开发:在游戏设计中,该框架可以从概念艺术或参考图片中估计物体的表面属性,以实现更真实的渲染效果。
- 机器人视觉:在机器人导航和物体识别任务中,准确的表面法线和材料估计对于理解物体的3D形状和物理属性至关重要。
评论0