近年来,文本到3D生成器和3D扫描仪技术取得了显著进展,能够生成高质量的3D资产。然而,这些资产通常由单一的融合表示组成,例如隐式神经场、高斯混合或网格,缺乏任何有用的结构。这种单一表示方式使得资产难以进行编辑和操作,尤其是在创意工作流程中,用户往往需要将3D对象拆分为多个有意义的部分,并对每个部分进行独立操作。
为了解决这一问题,牛津大学视觉几何小组和 Meta AI 的研究人员引入了 PartGen,这是一种新颖的方法,可以从文本、图像或非结构化3D对象开始,生成由多个有意义部分组成的3D对象。PartGen 通过多视图扩散模型提取合理的部分分割,并使用生成式完成模型填补遮挡区域,最终通过3D重建网络生成高质量的3D资产。PartGen的核心在于使用多视图扩散模型自动识别合理的部分,并在考虑整个对象的上下文的情况下完成和重建这些部分,确保它们能够正确地组合在一起。
例如,我们有一个文本提示:“一个穿着侦探服装的比格犬”。使用PartGen,我们可以生成一个3D模型,其中不仅包括比格犬的身体,还包括侦探帽、外套和其他相关配件作为独立的部分。这些部分可以单独编辑和操作,比如改变帽子的颜色或给比格犬添加一副眼镜。这种能力使得PartGen在3D内容创作和编辑中具有广泛的应用潜力。
PartGen 的工作流程
PartGen 的工作流程可以分为以下几个步骤:
1、初始输入:
-
文本描述:用户可以通过自然语言描述所需的3D对象。 -
单张图像:用户可以提供一张2D图像作为输入。 -
现有3D对象:用户可以提供一个现有的3D资产,可能是通过3D扫描或其他方式生成的。
2、多视图一致的部分分割:
-
给定一个3D对象的多个视图(生成或渲染),多视图扩散模型 提取一组合理且视图一致的部分分割。这个过程将对象划分为多个有意义的部分。分割的目的是确保每个部分在不同的视图中保持一致,并且能够独立操作。 -
分割网络基于扩散模型(Diffusion Model),能够在不依赖显式的边界信息的情况下,自动生成合理的部分划分。这使得 PartGen 能够处理各种复杂的3D形状,而不仅仅是简单的几何体。
3、部分完成与上下文感知:
-
分割后的部分连同上下文信息被输入到 多视图部分完成网络 中,以生成每个部分的完整视图。这个完成过程考虑了整个对象的上下文,确保各部分能够紧密结合。 -
生成式完成模型 可以弥补因遮挡而缺失的信息;在极端情况下,它可以根据输入的3D资产完全虚构不可见的部分。这一特性使得 PartGen 能够处理部分损坏或不完整的3D资产,生成完整的、结构化的3D对象。
4、3D重建与组装:
-
完成后的部分视图通过 预训练的3D重建模型 进行3D重建,生成每个部分的3D表示。 -
最后,这些3D部分根据它们的空间位置进行组装,形成一个完整的3D对象。由于每个部分都是独立生成的,用户可以在后期对每个部分进行单独编辑和操作,满足创意工作流程的需求。
关键创新点
-
多视图一致的分割:PartGen 使用多视图扩散模型来确保分割结果在不同视图中保持一致。这种一致性对于生成结构化的3D资产至关重要,因为它确保了每个部分在不同的视角下都能正确识别和操作。 -
上下文感知的部分完成:PartGen 的部分完成模型不仅填补了遮挡区域,还考虑了整个对象的上下文。这意味着生成的部分不仅在几何上是完整的,而且在语义上也与整个对象保持一致。这种上下文感知的能力使得生成的3D资产更加自然和真实。 -
灵活的输入形式:PartGen 支持多种输入形式,包括文本、单张图像和现有3D对象。这种灵活性使得用户可以根据不同的需求选择最合适的输入方式,进一步扩展了该方法的应用场景。 -
结构化的3D输出:PartGen 生成的3D资产由多个有意义的部分组成,用户可以对每个部分进行独立操作。这种结构化的表示方式使得3D资产更容易编辑和修改,特别适合创意设计、动画制作等领域。
实验结果与应用
研究人员在生成的和真实的3D资产上评估了 PartGen 的性能,结果表明该方法在分割和部分提取方面大幅领先于现有的基线方法。此外,PartGen 还展示了以下下游应用:
-
3D部分编辑:用户可以对生成的3D对象的各个部分进行独立编辑,例如更改某个部分的颜色、材质或形状,而不影响其他部分。这为创意设计提供了极大的灵活性。 -
3D资产修复:对于部分损坏或不完整的3D资产,PartGen 可以根据已有的部分推测并生成缺失的部分,恢复完整的3D对象。 -
3D内容创作:PartGen 可以用于从文本或图像生成具有复杂结构的3D资产,帮助艺术家和设计师快速创建高质量的3D模型。
评论0