PhysGen3D:从一张图片创造真实物理世界的交互式3D场景

新技术3周前更新 小马良
66 0

清华大学、伊利诺伊大学厄巴纳香槟分校和哥伦比亚大学的研究人员携手推出了一项创新成果—PhysGen3D,将单一图像转化为非模态、以相机为中心的交互式 3D 场景。

PhysGen3D的核心优势在于其深度融合了先进的图像几何与语义理解技术以及基于物理的仿真能力。它能够从静态图像中提取信息,构建出一个可交互的3D世界,并根据用户的输入“想象”并模拟未来场景。这一框架通过估算物体的3D形状、姿态、物理属性和照明条件,精准捕捉真实物体交互的基本物理特性。用户还可以指定物体的初始速度或材料属性等精确条件,从而增强对生成视频结果的控制力。

PhysGen3D:从一张图片创造真实物理世界的交互式3D场景

在性能评估中,研究团队将PhysGen3D与当前最先进(SOTA)的图像到视频模型(包括Pika、Kling和Gen-3)进行了对比。结果显示,PhysGen3D不仅能够生成具有真实物理效果的视频,还提供了更大的灵活性和细粒度控制。它实现了真实感、物理合理性和用户驱动交互性的独特平衡,为从图像生成动态、基于物理的视频开辟了新的可能性。

PhysGen3D:从一张图片创造真实物理世界的交互式3D场景

比较与对比

在对比测试中,研究团队精心设计了提示词以描述运动结果,并使用运动画笔控制Kling模型,而PhysGen3D则通过初始速度控制来实现动态效果。结果显示,PhysGen3D能够精准遵循文本指令,同时保持合理的物理效果,明显优于其他模型。

动态效果展示

PhysGen3D的强大之处在于其能够生成丰富多样的动态效果。通过改变初始速度或编辑材料属性,用户可以从同一输入图像生成多种不同的动态场景。例如,改变物体的初始速度可以让物体运动得更快或更慢;调整物体的材料属性则可以模拟出不同的物理反应。测试结果表明,PhysGen3D能够生成一致且真实的物理行为,为用户提供了高度的自定义能力。

应用场景

PhysGen3D的显式表示方式使其能够支持一系列令人兴奋的应用场景。以下是该系统支持的几个引人注目的用例:

密集3D追踪

PhysGen3D能够实现对场景中物体的密集3D追踪,为用户提供更精准的物体位置和运动信息。

视频编辑

用户可以在两个场景之间自由交换物体,实现无缝的视频编辑效果。PhysGen3D的交互式3D场景为视频创作者提供了更多的创意空间和灵活性。

© 版权声明

相关文章

暂无评论

none
暂无评论...