清华大学、中国科学技术大学和微软研究院的研究团队联合提出了一种名为TRELLIS的新颖3D生成模型,该模型能够创建多功能且高质量的3D资产。TRELLIS的核心优势在于其统一的结构化潜在表示(Structured LATent, SLAT),这一设计使得模型可以灵活地解码为不同的输出格式,包括辐射场、3D高斯分布和网格等,从而满足多样化的应用需求。
- 项目主页:https://trellis3d.github.io
- GitHub:https://github.com/Microsoft/TRELLIS
- Demo:https://huggingface.co/spaces/JeffreyXiang/TRELLIS
- Windows一键安装包:https://github.com/sdbds/TRELLIS-for-windows
- ComfyUI插件:https://github.com/if-ai/ComfyUI-IF_Trellis (更加适用于Linux系统)
TRELLIS的核心是一种统一的、结构化的潜在(latent)表示,它允许将3D资产解码成不同的输出格式,如辐射场(Radiance Fields)、3D高斯(3D Gaussians)和网格(meshes)。这种方法通过结合稀疏的3D网格和从强大的视觉基础模型中提取的密集多视图视觉特征,全面捕获3D资产的结构(几何)和纹理(外观)信息,同时在解码过程中保持灵活性。
例如,假设我们想要从一段文本描述或一张图片中生成一个3D模型。使用SLAT方法,我们可以将这段文本或图片作为输入,模型将生成一个3D资产,这个资产不仅具有精确的几何结构,还具有逼真的纹理细节。例如,从文本“一个由木头制成的银色光泽金属质感的透明玻璃花瓶”中,SLAT能够生成一个具有木纹、金属光泽和透明玻璃质感的3D花瓶模型。
主要功能和主要特点
- 高质量生成:产生具有复杂形状和纹理细节的多样化3D资产。
- 多格式输出:能够根据文本或图像提示生成多种最终3D表示形式,包括辐射场、3D高斯和网格。
- 灵活编辑:支持无需调整的3D编辑,如删除、添加和替换局部区域,由文本或图像提示引导。
- 无需拟合训练:在训练过程中不需要对3D对象进行拟合。
工作原理
SLAT方法包括以下几个关键步骤:
- 结构化潜在表示:在3D网格上定义一组局部潜在变量,这些变量捕获3D资产的几何和外观信息。
- 编码和解码:将3D资产编码到这种结构化潜在表示中,并使用不同的解码器将其重建为各种3D表示。
- 视觉特征聚合:从3D资产的多视图图像中提取特征,并聚合到每个活跃体素上。
- 稀疏VAE:使用基于变压器的VAE架构对3D资产进行编码。
- 多样化格式解码:通过不同的解码器将结构化潜在表示解码为3D高斯、辐射场和网格等不同的3D表示。
显著超越现有方法
实验结果显示,TRELLIS在文本或图像条件下生成的3D资产质量显著优于现有的最新方法,即使是在相似规模的模型对比中也是如此。此外,TRELLIS还展示了其他模型所不具备的灵活性,例如:
- 灵活的输出格式选择:用户可以根据具体的应用场景,选择最合适的3D资产格式。
- 局部3D编辑能力:TRELLIS支持对生成的3D资产进行局部编辑,使得用户能够更加精细地调整和优化最终结果。
评论0