理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统的方法通常依赖于传感器数据(如摄像头、激光雷达等)来构建环境的即时感知,但这限制了代理在未见区域的预测能力和决策效率。为了克服这些限制,约翰霍普金斯大学的研究人员开发了 GenEx,这是一个能够规划复杂具身世界探索的系统,其关键创新在于利用生成式想象力为周围环境形成先验(预期)。
GenEx能够从单张RGB图像生成一个可探索的3D一致性虚拟环境,并将这个环境通过全景视频流的形式活化。GenEx系统包括两个相互连接的组件:一个能够动态生成3D环境以供探索的想象世界,以及一个与这个环境互动以精细化理解和决策的具身智能体(embodied agent)。这个系统使得人工智能(AI)能够在类似于人类认知过程的模拟、探索和学习中取得进步。
例如,一个研究人员想要在虚拟环境中测试一个AI驱动的自动驾驶系统。使用GenEx,研究人员可以从一张街道的图片开始,生成一个完整的3D城市环境,并让AI系统在这个环境中进行导航和决策训练。通过这种方式,研究人员可以在一个安全和可控的虚拟环境中测试AI系统的性能,而无需在现实世界中进行昂贵和耗时的实地测试。
GenEx 的核心技术
生成式想象力:
- 从单张 RGB 图像生成 3D 环境:GenEx 可以从一张普通的 RGB 图像出发,生成一个完整的、一致的 3D 想象环境。这个过程不仅仅是简单的图像扩展,而是基于对物理世界的深刻理解,生成出符合现实逻辑的三维结构。
- 全景视频流具象化:生成的 3D 环境可以通过全景视频流进行具象化,提供连续的 360° 视角,使 AI 代理能够在虚拟环境中自由移动和探索。
- 物理世界扎根:GenEx 的生成模型基于从 Unreal Engine 中精心策划的可扩展 3D 世界数据进行训练,确保生成的环境不仅视觉上逼真,而且符合物理规律。这使得代理能够在虚拟环境中进行真实的交互和操作。
高质量世界生成与鲁棒性:
- 长时间轨迹上的循环一致性:GenEx 在生成过程中保持了高质量的世界生成,并在长时间的探索轨迹上实现了鲁棒的循环一致性。这意味着即使代理在环境中多次往返,生成的环境仍然保持一致,不会出现明显的不连贯或错误。
- 强大的 3D 能力:GenEx 展示了出色的 3D 能力,包括一致性和主动 3D 建图。它能够实时更新对环境的理解,随着代理的移动不断细化和扩展其对世界的认知。
主要特点:
- 从单图像生成:GenEx可以从单张RGB图像生成整个3D环境,扩展了AI的探索和交互能力。
- 3D一致性:生成的环境在物理上是合理的,视觉上是连贯的,即使在长距离探索中也能保持一致性。
- 全景视频流:通过全景视频流,GenEx能够捕捉连续的360°环境,提供无缝的探索体验。
- 具身智能体:GenEx支持具身智能体在生成的世界中执行复杂的任务,包括无目标探索和目标驱动的导航。
工作原理:
- 世界初始化:GenEx使用预训练的文本到图像扩散模型,结合输入图像和文本描述,生成一个高动态范围的全景图像。
- 世界转换:随着智能体在想象环境中移动,其视角会发生变化,GenEx将这个过程建模为一个动作驱动的全景视频生成过程,将之前观察到的全景图像转换为新的视角。
- 探索策略:GenEx允许智能体根据探索策略进行移动,这些策略可以是用户控制的,也可以是由GPT辅助的自由探索或目标驱动的导航。
应用与任务执行
借助生成式想象力,GPT 辅助的代理能够执行复杂的具身任务,具体包括:
- 目标无关的探索:代理可以自主探索未知环境,利用生成的想象环境来预测未见区域的可能布局。这种能力使得代理能够在没有明确目标的情况下,高效地覆盖大面积区域,并发现潜在的兴趣点。
- 目标驱动的导航:当给定特定目标时,代理可以根据生成的想象环境规划最优路径。通过模拟不同决策的结果,代理能够提前预见到可能的障碍或挑战,并做出更明智的选择。这大大提高了导航的成功率和效率。
- 优化信念与决策:代理利用生成的想象环境来优化其对世界的信念,即它对环境状态的估计。通过模拟潜在的行为及其结果,代理可以在实际行动之前评估不同选择的优劣,从而做出更加稳健的决策。
技术优势
- 预测未见部分:传统的感知系统只能处理当前可见的环境,而 GenEx 通过生成式想象力能够预测未见部分的结构和布局,极大地扩展了代理的认知范围。
- 模拟与规划:代理可以在虚拟环境中进行大量的模拟实验,测试不同的行为策略,而无需在真实世界中付出高昂的成本。这使得代理能够更快地学习和适应新环境。
- 物理一致性:由于 GenEx 的生成模型基于物理世界的规则进行训练,生成的环境不仅视觉上逼真,而且符合物理规律,确保代理能够在虚拟环境中进行真实的交互和操作。
评论0