新型框架GVGEN：根据文本描述直接生成三维模型

326 0

来自上海AI研究所、清华大学、上海交通大学、浙江大学和VAST的研究团队推出新型框架GVGEN，它能够根据文本描述直接生成三维模型。与现有的3D生成方法相比，GVGEN在定性和定量评估中均表现出卓越的性能。同时，它保持了快速的生成速度（约7秒），从而在质量和效率之间达到了有效的平衡。

项目主页

想象一下，你只需要输入一段描述，比如“一个带有木纹和金色把手的红色苹果”，GVGEN就能够创建出一个与之匹配的三维苹果模型。这项技术对于那些需要快速创建和渲染3D模型的领域来说非常有用，比如视频游戏设计、电影制作或者增强现实（AR）和虚拟现实（VR）应用。

主要功能和特点：

文本到3D的转换： GVGEN可以从简单的文本描述中生成详细的三维模型。

快速渲染： 该框架使用3D高斯表示法，能够实现快速且高质量的渲染。

结构化体积表示： 通过一种称为GaussianVolume的结构化形式，GVGEN能够更好地捕捉模型的细节。

粗到细的生成流程： 该框架首先创建一个基本的几何结构，然后预测完整的高斯属性，以生成具有详细3D几何形状的实例。

工作原理：

研究团队提出了两种创新技术：首先，结构化体积表示。我们将无序的3D高斯点整理成结构化的高斯体积形式，以在由固定数量高斯函数构成的体积内精细地捕捉纹理细节。为进一步优化这些细节的表示，提出了一种独特的修剪和加密方法——候选池策略，通过选择性优化来提升细节保真度。其次，从粗到细的生成流程。为了简化高斯体积的生成，并赋予模型生成具有丰富3D几何细节实例的能力，我们设计了从粗到细的生成流程。该流程首先构建基础的几何结构，随后预测完整的高斯属性。