GenEx：从单张RGB图像生成一个可探索的3D一致性虚拟环境

284 0

理解、导航和探索三维物理现实世界一直是人工智能（AI）领域的一个核心挑战。传统的方法通常依赖于传感器数据（如摄像头、激光雷达等）来构建环境的即时感知，但这限制了代理在未见区域的预测能力和决策效率。为了克服这些限制，约翰霍普金斯大学的研究人员开发了 GenEx，这是一个能够规划复杂具身世界探索的系统，其关键创新在于利用生成式想象力为周围环境形成先验（预期）。

项目主页：https://generative-world-explorer.github.io
GitHub：https://github.com/Beckschen/genEx

GenEx能够从单张RGB图像生成一个可探索的3D一致性虚拟环境，并将这个环境通过全景视频流的形式活化。GenEx系统包括两个相互连接的组件：一个能够动态生成3D环境以供探索的想象世界，以及一个与这个环境互动以精细化理解和决策的具身智能体（embodied agent）。这个系统使得人工智能（AI）能够在类似于人类认知过程的模拟、探索和学习中取得进步。

例如，一个研究人员想要在虚拟环境中测试一个AI驱动的自动驾驶系统。使用GenEx，研究人员可以从一张街道的图片开始，生成一个完整的3D城市环境，并让AI系统在这个环境中进行导航和决策训练。通过这种方式，研究人员可以在一个安全和可控的虚拟环境中测试AI系统的性能，而无需在现实世界中进行昂贵和耗时的实地测试。

GenEx 的核心技术

生成式想象力：

从单张 RGB 图像生成 3D 环境：GenEx 可以从一张普通的 RGB 图像出发，生成一个完整的、一致的 3D 想象环境。这个过程不仅仅是简单的图像扩展，而是基于对物理世界的深刻理解，生成出符合现实逻辑的三维结构。
全景视频流具象化：生成的 3D 环境可以通过全景视频流进行具象化，提供连续的 360° 视角，使 AI 代理能够在虚拟环境中自由移动和探索。
物理世界扎根：GenEx 的生成模型基于从 Unreal Engine 中精心策划的可扩展 3D 世界数据进行训练，确保生成的环境不仅视觉上逼真，而且符合物理规律。这使得代理能够在虚拟环境中进行真实的交互和操作。

高质量世界生成与鲁棒性：

长时间轨迹上的循环一致性：GenEx 在生成过程中保持了高质量的世界生成，并在长时间的探索轨迹上实现了鲁棒的循环一致性。这意味着即使代理在环境中多次往返，生成的环境仍然保持一致，不会出现明显的不连贯或错误。
强大的 3D 能力：GenEx 展示了出色的 3D 能力，包括一致性和主动 3D 建图。它能够实时更新对环境的理解，随着代理的移动不断细化和扩展其对世界的认知。

主要特点：

从单图像生成：GenEx可以从单张RGB图像生成整个3D环境，扩展了AI的探索和交互能力。
3D一致性：生成的环境在物理上是合理的，视觉上是连贯的，即使在长距离探索中也能保持一致性。
全景视频流：通过全景视频流，GenEx能够捕捉连续的360°环境，提供无缝的探索体验。
具身智能体：GenEx支持具身智能体在生成的世界中执行复杂的任务，包括无目标探索和目标驱动的导航。

工作原理：

世界初始化：GenEx使用预训练的文本到图像扩散模型，结合输入图像和文本描述，生成一个高动态范围的全景图像。
世界转换：随着智能体在想象环境中移动，其视角会发生变化，GenEx将这个过程建模为一个动作驱动的全景视频生成过程，将之前观察到的全景图像转换为新的视角。
探索策略：GenEx允许智能体根据探索策略进行移动，这些策略可以是用户控制的，也可以是由GPT辅助的自由探索或目标驱动的导航。

应用与任务执行

借助生成式想象力，GPT 辅助的代理能够执行复杂的具身任务，具体包括：

目标无关的探索：代理可以自主探索未知环境，利用生成的想象环境来预测未见区域的可能布局。这种能力使得代理能够在没有明确目标的情况下，高效地覆盖大面积区域，并发现潜在的兴趣点。
目标驱动的导航：当给定特定目标时，代理可以根据生成的想象环境规划最优路径。通过模拟不同决策的结果，代理能够提前预见到可能的障碍或挑战，并做出更明智的选择。这大大提高了导航的成功率和效率。
优化信念与决策：代理利用生成的想象环境来优化其对世界的信念，即它对环境状态的估计。通过模拟潜在的行为及其结果，代理可以在实际行动之前评估不同选择的优劣，从而做出更加稳健的决策。

技术优势

预测未见部分：传统的感知系统只能处理当前可见的环境，而 GenEx 通过生成式想象力能够预测未见部分的结构和布局，极大地扩展了代理的认知范围。
模拟与规划：代理可以在虚拟环境中进行大量的模拟实验，测试不同的行为策略，而无需在真实世界中付出高昂的成本。这使得代理能够更快地学习和适应新环境。
物理一致性：由于 GenEx 的生成模型基于物理世界的规则进行训练，生成的环境不仅视觉上逼真，而且符合物理规律，确保代理能够在虚拟环境中进行真实的交互和操作。