图生3D模型TripoSR:将2D图片转换成3D模型图生3D模型

Stability AI与Tripo AI携手合作,共同推出TripoSR,这是一个灵感源自LRM(单幅图像到3D的大型重建模型)最新研究成果的快速3D对象重建模型。

这款新型的图像转3D模型旨在迎合娱乐、游戏、工业设计和建筑行业专业人士不断增长的需求,能够迅速输出用于可视化复杂细节的3D对象,并保证响应速度和高质量。

性能表现

相较于其他同类模型,TripoSR能在较短时间内实现精准的3D模型构建。在Nvidia A100硬件环境下测试时,只需大约0.5秒即可产出初步高质量的三维输出(带纹理的网格模型),效率上明显优于如OpenLRM等现有的开源图像至3D模型。而且,无论用户是否配备GPU,此模型都能够确保其便捷易用性。

技术细节

为了更紧密地模拟现实世界中的图像分布,我们在训练数据准备过程中融入了多种数据渲染技术,从而显著提升了模型的泛化能力。我们精心选取了Objaverse数据集中拥有CC-BY授权且质量更优的部分作为训练素材。在模型结构层面,我们在基础LRM模型的基础上引入了多项技术创新,包括通道数优化、掩模监督机制以及更为高效的裁剪渲染策略等。

特点:

  1. 快速生成: TripoSR能够在不到0.5秒的时间内从单张图片生成3D模型,这在3D建模领域是非常快的速度。
  2. 高质量输出: 生成的3D模型具有高分辨率和丰富的细节,能够精确地反映原始图片的内容。
  3. 通用性: TripoSR不仅适用于特定类型的物体,还能够处理各种不同领域的输入图片。

工作原理:

TripoSR基于Transformer架构,这是一种在自然语言处理和计算机视觉领域广泛使用的模型。它通过一个图像编码器将输入的2D图片转换成一组潜在向量,这些向量包含了图片的全局和局部特征。然后,模型使用一个解码器将这些向量转换成一个基于三角平面的神经辐射场(NeRF)表示,这是一种紧凑且富有表现力的3D表示方法。最后,NeRF模型通过多层感知器(MLP)预测3D空间中点的颜色和密度,从而生成3D模型。

关于Tripo

其实在去年 Tripo背后的开发商VAST就已经在官网上线了,支持文生 3D 和图生 3D 两种能力,驱动该产品的通用 3D 大模型 Tripo 于去年 12 月研发完成,Tripo 基于大量 3D 高质量原生数据库训练,是一个十亿参数级别的 3D 大模型。

据悉,VAST 团队具有丰富的 AI 及图形学经验,其 CTO 梁鼎师从戴琼海院士,曾担任商汤通用视觉和语言大模型发起人、垂类语言大模型负责人,首席科学家曹炎培师从胡事民院士,曾是腾讯 ARC Lab 和 AI Lab 3D 方向专家。

0

评论0

没有账号?注册  忘记密码?