腾讯和清华大学的研究人员推出一种新型3D 原语组装生成框架PrimitiveAnything,旨在通过自回归变换器将复杂的 3D 形状分解为简单几何原语的组合。该框架通过学习人类如何将复杂形状分解为基本几何元素,生成高质量的 3D 原语组装,适用于多种 3D 内容创作场景。
- 项目主页:https://primitiveanything.github.io
- GitHub:https://github.com/PrimitiveAnything/PrimitiveAnything
- 模型:https://huggingface.co/hyz317/PrimitiveAnything
- Demo:https://huggingface.co/spaces/hyz317/PrimitiveAnything
例如,你有一个复杂的 3D 模型,比如一个带有多个细节的机械装置。PrimitiveAnything 可以将这个模型分解为一系列简单的几何形状(如长方体、椭圆柱体和椭球体),这些形状组合起来能够高度还原原始模型的外观和结构。这种分解方式不仅保留了模型的几何细节,还符合人类对形状的认知方式。

主要功能
- 高质量 3D 原语组装生成:PrimitiveAnything 能够生成高质量的 3D 原语组装,这些组装不仅在几何上忠实于原始模型,还符合人类对形状的直观理解。
- 多样化 3D 内容创作:支持从文本或图像条件生成 3D 内容,为用户提供了灵活的创作方式。
- 高效存储和编辑:由于使用了原语表示,生成的 3D 模型在存储上更加高效,同时易于编辑和调整。
主要特点
- 自回归变换器架构:通过自回归变换器逐帧生成 3D 原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的原语类型。
- 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。
- 几何保真度与语义一致性:在生成过程中,PrimitiveAnything 不仅保持了高几何保真度,还能够生成符合人类认知的语义分解结果。
- 模块化设计:框架的模块化设计允许无缝集成新的原语类型,而无需修改架构,使其能够适应不同的原语表示。
工作原理
PrimitiveAnything 的工作原理基于以下关键步骤:
- 原语参数化:将 3D 形状分解为多种类型的原语,并通过统一的参数化方案表示这些原语。为了消除参数化中的歧义,框架通过分析原语的对称性来选择最合适的参数组合。
- 自回归生成:使用自回归变换器逐帧生成原语序列。每个新生成的原语都基于之前生成的原语和输入条件(如点云)。
- 级联解码器:通过级联解码器依次预测原语的属性(如类型、位置、旋转和缩放),这种设计捕捉了原语属性之间的自然依赖关系。
- 训练目标:结合了下一步预测损失和辅助的 3D 形状引导项,确保生成的原语在几何上与原始形状对齐。

测试结果
- 几何评估:在 HumanPrim 数据集上,PrimitiveAnything 在 Chamfer Distance、Earth Mover’s Distance、Hausdorff Distance 和 Voxel-IoU 等几何评估指标上均优于现有的优化方法和学习方法。
- 语义评估:通过实例分割指标(如 rand index、variation of information 和 segmentation covering)评估生成的原语组装与人类分解模式的一致性,PrimitiveAnything 显示出显著的优势。
- 用户研究:在用户研究中,参与者对 PrimitiveAnything 生成的 3D 原语组装在几何相似性、人类感知一致性和可编辑性方面给出了更高的评分,验证了其在实际应用中的优势。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...