来自斯坦福大学、香港科技大学、上海人工智能实验室、 浙江大学和蚂蚁集团的研究团队推出新型大规模3D重建和生成模型GRM(Gaussian Reconstruction Model),GRM是一种基于transformer的前馈模型,能够从稀疏视角的图像中快速(大约0.1秒)重建出3D模型。简单来说,就像我们用几张不同角度的照片来快速构建一个三维模型,GRM能够将这些照片中的信息转换成一个详细的三维场景。
例如,如果我们想要创建一个3D模型的恐龙,我们只需要提供几张恐龙的图片,GRM就能够根据这些图片中的视角和细节,快速生成一个精确的恐龙3D模型。这个模型可以用于游戏开发、电影制作或者作为教育工具。
主要功能和特点:
- 高效率: GRM能够在极短的时间内从几张图片中重建出高质量的3D模型。
- 高质量: 通过使用3D高斯(Gaussians)来表示场景,GRM能够捕捉到更多的细节,从而生成更高质量的3D内容。
- 可扩展性: GRM的架构设计使其能够处理大规模的数据,这意味着它可以用于创建更复杂和详细的3D场景。
- 生成任务: GRM不仅可以用于重建,还可以用于生成任务,例如将文本描述转换成3D模型(text-to-3D),或者从单张图片生成3D模型(image-to-3D)。
工作原理:
GRM的核心是将输入的像素信息转换成与之对应的3D高斯分布。这些3D高斯分布在三维空间中紧密分布,共同表示了一个场景。GRM使用了一个纯变换器架构,包括编码器和上采样器(upsampler),来将输入的像素信息转换成3D高斯。编码器利用视觉变换器(ViT)处理输入图像,而上采样器则使用窗口化的自注意力层来高效地传递非局部的视觉线索,这对于重建高频细节至关重要。
评论0