近年来,2D视觉生成取得了显著成功,但在3D和4D生成方面,由于缺乏大规模数据和有效的模型设计,实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型,它能够从任意数量的条件图像生成高质量的3D和4D场景。GenXD通过控制运动强度和条件掩码,支持各种应用场景,无需任何修改。例如,它可以从单一视角或多个视角生成3D内容,也可以生成包含动态变化的4D内容,如视频游戏中的动态场景或视觉效果中的动态元素。
数据整理流程
由于社区中缺乏现实世界的4D数据,研究人员首先提出了一种数据整理流程,从视频中获取相机姿态和物体运动强度。基于此流程,他们引入了一个大规模的现实世界4D场景数据集:CamVid-30K。
CamVid-30K数据集
-
数据来源:从现实世界的视频中采集。 -
数据整理:使用计算机视觉技术从视频中提取相机姿态和物体运动强度。 -
数据规模:包含30,000个4D场景,涵盖了多种场景和运动模式。
GenXD框架
GenXD是一个通用的3D和4D生成框架,通过利用所有3D和4D数据,能够生成任何3D或4D场景。其主要特点如下:
1、多视图-时间模块:
-
解耦相机和物体运动:多视图-时间模块解耦了相机和物体的运动,使得模型能够无缝地从3D和4D数据中学习。 -
多视图学习:支持从多个视角学习,提高生成结果的多样性和一致性。
2、掩码潜在条件:
-
支持条件视图:通过引入掩码潜在条件,GenXD可以支持各种条件视图,如特定的相机轨迹或物体运动模式。 -
灵活性:允许用户指定生成场景的具体条件,提高生成的可控性和实用性。
功能特点
-
生成遵循相机轨迹的视频:GenXD可以生成遵循特定相机轨迹的视频,适用于虚拟现实、增强现实等应用场景。 -
生成一致的3D视图:GenXD可以生成一致的3D视图,这些视图可以提升为3D表示,适用于3D建模和渲染。
实验评估
研究人员在各种现实世界和合成数据集上进行了广泛的评估,展示了GenXD在3D和4D生成方面的有效性和多功能性。实验结果表明,GenXD在以下几个方面显著优于先前方法:
-
生成质量:生成的3D和4D场景具有高分辨率和高保真度,细节丰富且逼真。 -
多视图一致性:生成的场景在不同视角下保持一致性和连贯性。 -
物理合理性:生成的场景符合物理规律,确保运动和交互的合理性。 -
条件生成:通过掩码潜在条件,GenXD能够生成符合特定条件的场景,提高生成的可控性和实用性。
评论0