来自HiDream.ai和复旦大学的研究人员推出新型文本到3D生成模型VP3D,它通过利用2D视觉提示来增强3D模型的视觉真实感。在以往的研究中,虽然已经有了一些能够从文本生成3D模型的技术,但这些技术在处理复杂文本提示时仍然存在挑战,生成的3D模型可能会出现不真实的纹理或视角不一致的问题。VP3D模型通过引入2D图像作为视觉提示,来指导3D模型的生成过程,从而提高了生成模型的视觉保真度和细节丰富度。
例如,如果用户想要生成一个“花店员工正在用鲜花制作花束”的3D模型,VP3D可以先根据这个描述生成一张图像,然后使用这张图像作为视觉提示,生成一个细节丰富、纹理真实的3D花束模型。如果用户有一张特定的风格图像,比如一幅油画风格的花束图像,VP3D还可以生成一个具有油画风格的3D花束模型。
主要功能和特点:
- 视觉提示引导: VP3D使用2D扩散模型先从文本生成高质量的图像,这个图像随后作为视觉提示,与文本一起指导3D模型的生成。
- 提高视觉真实感: 通过视觉提示,VP3D能够生成具有更丰富纹理和更高视觉真实感的3D模型。
- 风格化生成: 当使用用户提供的参考图像作为视觉提示时,VP3D能够触发风格化文本到3D生成的新任务,生成的3D模型不仅在语义上与文本提示一致,还在几何和视觉上与参考图像相似。
工作原理:
VP3D的工作流程分为两个阶段。首先,它使用现成的文本到图像的扩散模型(例如Stable Diffusion)根据输入的文本提示生成一张高质量的图像。然后,这张图像作为视觉提示,与文本提示一起输入到VP3D模型中,通过一个称为视觉提示引导的得分蒸馏采样(VP-SDS)的过程,来优化3D模型。此外,VP3D还结合了可微分的奖励函数,以鼓励3D模型渲染的图像在视觉和语义上与视觉提示和文本提示更好地对齐。
具体应用场景:
- 虚拟现实和游戏: VP3D可以用于创建虚拟现实和游戏中的3D资产,提供更高质量的视觉体验。
- 元宇宙: 在元宇宙中,VP3D可以用来生成具有丰富细节和风格的3D环境和角色。
- 3D打印: VP3D还可以用于3D打印领域,根据文本描述生成精确的3D模型,供打印使用。
评论0