3D资产生成模型3DTopia-XL:根据文本或视觉输入生成高质量的3D模型

南洋理工大学S-Lab、北京大学、上海人工智能实验室和香港中文大学的研究人员推出3D资产生成模型3DTopia-XL,它能够根据文本或视觉输入生成高质量的3D模型。这个模型特别擅长处理具有复杂几何形状、纹理和材质的3D对象,并且能够以紧凑的格式编码这些细节,使得生成的3D模型可以直接用于物理基础渲染(PBR)。

例如,你是一名游戏设计师,需要创建一个具有特定外观和纹理的3D角色,你可以使用3DTopia-XL通过描述角色的特征(如“一个穿着中世纪铠甲的骑士”)来生成这个角色的3D模型。生成的模型可以直接用于游戏引擎中,展现出逼真的视觉效果。

主要功能和特点:

  1. 高质量的3D生成: 3DTopia-XL能够生成具有光滑几何形状和空间变化纹理的高质量3D资产。
  2. 基于文本或视觉输入: 用户可以通过文本描述或单视图图像来指导模型生成相应的3D模型。
  3. 高效的3D表示: 模型使用一种新颖的基于原始单元的3D表示方法(PrimX),将形状、反照率和材质信息编码到紧凑的张量格式中。
  4. 原生3D生成模型: 与依赖于2D图像的模型不同,3DTopia-XL直接在3D空间中建模和生成,提高了效率和质量。

工作原理:

3DTopia-XL的工作原理包括以下几个关键步骤:

  1. 原始单元表示(PrimX): 将3D模型的形状、纹理和材质信息编码为一组原始单元,每个单元都是一个小体素,具有3D位置、缩放因子和对应的空间变化载荷。
  2. 原始单元压缩: 使用3D变分自编码器(VAE)对每个原始单元的空间信息进行压缩,得到潜在的原始单元标记。
  3. 潜在原始单元扩散: 利用扩散变换器(DiT)对潜在的原始单元标记进行建模,从而实现3D对象的生成。
  4. 条件信号: 模型可以根据文本或图像条件信号生成相应的3D模型,这些信号通过预训练的模型(如CLIP或DINO)提取。

具体应用场景:

  1. 游戏和电影制作: 快速生成具有复杂细节的3D角色和场景,用于游戏或电影的制作。
  2. 虚拟现实(VR)和增强现实(AR): 创建高质量的3D模型,用于虚拟现实或增强现实应用,提供沉浸式体验。
  3. 3D打印: 从设计概念直接生成可打印的3D模型,加速产品原型制作。
  4. 在线3D内容创作: 允许用户通过简单的文本描述或草图来创建个性化的3D模型,用于在线展示或电子商务。
0

评论0

没有账号?注册  忘记密码?