文本到3D生成模型VP3D：通过利用2D视觉提示来增强3D模型的视觉真实感

438 0

来自HiDream.ai和复旦大学的研究人员推出新型文本到3D生成模型 VP3D，它通过利用2D视觉提示来增强3D模型的视觉真实感。在以往的研究中，虽然已经有了一些能够从文本生成3D模型的技术，但这些技术在处理复杂文本提示时仍然存在挑战，生成的3D模型可能会出现不真实的纹理或视角不一致的问题。VP3D模型通过引入2D图像作为视觉提示，来指导3D模型的生成过程，从而提高了生成模型的视觉保真度和细节丰富度。

项目主页

论文地址

例如，如果用户想要生成一个“花店员工正在用鲜花制作花束”的3D模型，VP3D可以先根据这个描述生成一张图像，然后使用这张图像作为视觉提示，生成一个细节丰富、纹理真实的3D花束模型。如果用户有一张特定的风格图像，比如一幅油画风格的花束图像，VP3D还可以生成一个具有油画风格的3D花束模型。

主要功能和特点：

视觉提示引导： VP3D使用2D扩散模型先从文本生成高质量的图像，这个图像随后作为视觉提示，与文本一起指导3D模型的生成。

提高视觉真实感： 通过视觉提示，VP3D能够生成具有更丰富纹理和更高视觉真实感的3D模型。

风格化生成： 当使用用户提供的参考图像作为视觉提示时，VP3D能够触发风格化文本到3D生成的新任务，生成的3D模型不仅在语义上与文本提示一致，还在几何和视觉上与参考图像相似。

工作原理：

VP3D的工作流程分为两个阶段。首先，它使用现成的文本到图像的扩散模型（例如Stable Diffusion）根据输入的文本提示生成一张高质量的图像。然后，这张图像作为视觉提示，与文本提示一起输入到VP3D模型中，通过一个称为视觉提示引导的得分蒸馏采样（VP-SDS）的过程，来优化3D模型。此外，VP3D还结合了可微分的奖励函数，以鼓励3D模型渲染的图像在视觉和语义上与视觉提示和文本提示更好地对齐。

具体应用场景：