新颖3D生成模型TRELLIS:能够创建多功能且高质量的3D资产

清华大学、中国科学技术大学和微软研究院的研究团队联合提出了一种名为TRELLIS的新颖3D生成模型,该模型能够创建多功能且高质量的3D资产。TRELLIS的核心优势在于其统一的结构化潜在表示(Structured LATent, SLAT),这一设计使得模型可以灵活地解码为不同的输出格式,包括辐射场、3D高斯分布和网格等,从而满足多样化的应用需求。

TRELLIS的核心是一种统一的、结构化的潜在(latent)表示,它允许将3D资产解码成不同的输出格式,如辐射场(Radiance Fields)、3D高斯(3D Gaussians)和网格(meshes)。这种方法通过结合稀疏的3D网格和从强大的视觉基础模型中提取的密集多视图视觉特征,全面捕获3D资产的结构(几何)和纹理(外观)信息,同时在解码过程中保持灵活性。

例如,假设我们想要从一段文本描述或一张图片中生成一个3D模型。使用SLAT方法,我们可以将这段文本或图片作为输入,模型将生成一个3D资产,这个资产不仅具有精确的几何结构,还具有逼真的纹理细节。例如,从文本“一个由木头制成的银色光泽金属质感的透明玻璃花瓶”中,SLAT能够生成一个具有木纹、金属光泽和透明玻璃质感的3D花瓶模型。

主要功能和主要特点

  • 高质量生成:产生具有复杂形状和纹理细节的多样化3D资产。
  • 多格式输出:能够根据文本或图像提示生成多种最终3D表示形式,包括辐射场、3D高斯和网格。
  • 灵活编辑:支持无需调整的3D编辑,如删除、添加和替换局部区域,由文本或图像提示引导。
  • 无需拟合训练:在训练过程中不需要对3D对象进行拟合。

工作原理

SLAT方法包括以下几个关键步骤:

  1. 结构化潜在表示:在3D网格上定义一组局部潜在变量,这些变量捕获3D资产的几何和外观信息。
  2. 编码和解码:将3D资产编码到这种结构化潜在表示中,并使用不同的解码器将其重建为各种3D表示。
  3. 视觉特征聚合:从3D资产的多视图图像中提取特征,并聚合到每个活跃体素上。
  4. 稀疏VAE:使用基于变压器的VAE架构对3D资产进行编码。
  5. 多样化格式解码:通过不同的解码器将结构化潜在表示解码为3D高斯、辐射场和网格等不同的3D表示。

显著超越现有方法

实验结果显示,TRELLIS在文本或图像条件下生成的3D资产质量显著优于现有的最新方法,即使是在相似规模的模型对比中也是如此。此外,TRELLIS还展示了其他模型所不具备的灵活性,例如:

  • 灵活的输出格式选择:用户可以根据具体的应用场景,选择最合适的3D资产格式。
  • 局部3D编辑能力:TRELLIS支持对生成的3D资产进行局部编辑,使得用户能够更加精细地调整和优化最终结果。
0

评论0

没有账号?注册  忘记密码?