来自上海AI研究所、清华大学、上海交通大学、浙江大学和VAST的研究团队推出新型框架GVGEN,它能够根据文本描述直接生成三维模型。与现有的3D生成方法相比,GVGEN在定性和定量评估中均表现出卓越的性能。同时,它保持了快速的生成速度(约7秒),从而在质量和效率之间达到了有效的平衡。
想象一下,你只需要输入一段描述,比如“一个带有木纹和金色把手的红色苹果”,GVGEN就能够创建出一个与之匹配的三维苹果模型。这项技术对于那些需要快速创建和渲染3D模型的领域来说非常有用,比如视频游戏设计、电影制作或者增强现实(AR)和虚拟现实(VR)应用。
主要功能和特点:
- 文本到3D的转换: GVGEN可以从简单的文本描述中生成详细的三维模型。
- 快速渲染: 该框架使用3D高斯表示法,能够实现快速且高质量的渲染。
- 结构化体积表示: 通过一种称为GaussianVolume的结构化形式,GVGEN能够更好地捕捉模型的细节。
- 粗到细的生成流程: 该框架首先创建一个基本的几何结构,然后预测完整的高斯属性,以生成具有详细3D几何形状的实例。
工作原理:
研究团队提出了两种创新技术:首先,结构化体积表示。我们将无序的3D高斯点整理成结构化的高斯体积形式,以在由固定数量高斯函数构成的体积内精细地捕捉纹理细节。为进一步优化这些细节的表示,提出了一种独特的修剪和加密方法——候选池策略,通过选择性优化来提升细节保真度。其次,从粗到细的生成流程。为了简化高斯体积的生成,并赋予模型生成具有丰富3D几何细节实例的能力,我们设计了从粗到细的生成流程。该流程首先构建基础的几何结构,随后预测完整的高斯属性。
- 第一阶段(GaussianVolume拟合): GVGEN首先将无序的3D高斯点组织成结构化的GaussianVolume。这个过程包括使用一种名为候选池策略(Candidate Pool Strategy)的独特修剪和密集化方法,以优化细节的表现。
- 第二阶段(文本到3D生成): 通过一个扩散模型首先生成粗略的几何体积(Gaussian Distance Field,GDF),然后使用基于3D U-Net的模型根据GDF和文本输入预测GaussianVolume的属性,从而生成详细的3D对象。
评论0