实时交互式3D场景生成的创新框架WonderWorld:能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景

MIT和斯坦福的研究人员联合推出了WonderWorld,这是一个用于交互式3D场景生成的创新框架。它使用户能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景。WonderWorld的主要目标是解决现有3D场景生成方法在速度上的不足,特别是在快速生成高质量、连贯的3D场景方面。这个系统的核心优势在于快速生成3D场景的能力,这对于虚拟现实、游戏开发和创意设计等领域具有重要意义。

例如,你是一名游戏设计师,你想要创建一个虚拟的古代市场。你只需提供一张相关的照片,WonderWorld就能根据你的文本提示(比如“古代市场”)和通过移动摄像头来指定布局,快速生成一个3D场景。你可以在几秒钟内看到这个市场的样子,并根据需要进行调整和扩展。

主要功能

  • 交互式3D场景生成:用户可以通过文本提示和摄像头移动来指定场景内容和布局。
  • 快速生成:在单个GPU上,不到10秒就能生成一个3D场景,支持实时用户交互和探索。

主要特点

  • Fast LAyered Gaussian Surfels (FLAGS):一种新颖的3D场景表示方法,允许从单一视图快速生成场景。
  • 引导式深度扩散:一种改善新旧场景之间几何对齐的方法,减少场景连接处的几何扭曲。
  • 实时渲染:用户可以即时看到生成的场景,提高了交互性和用户体验。

工作原理

  1. 单视图层生成:从单一场景图像出发,利用文本引导的扩散模型生成场景图像,并使用单视图层生成方法来揭示和修复遮挡区域。
  2. 基于几何的初始化:利用估计的单目法线和深度快速优化场景,显著减少优化时间。
  3. 引导式深度扩散:通过部分条件深度估计来生成几何体,提高新生成场景与现有场景之间的对齐度。

性能表现

  • 生成速度:WonderWorld能够在单个A6000 GPU上不到10秒的时间内生成连接且多样的3D场景。这一速度使得用户可以实时交互和探索生成的场景,极大地提升了用户体验。
  • 实时交互:由于其高效的生成算法,WonderWorld支持用户驱动的内容创作和探索。用户可以通过简单的输入(如文本描述或草图)快速生成复杂的3D场景,并实时调整场景中的元素,观察即时反馈。
0

评论0

没有账号?注册  忘记密码?