谷歌DeepMind 发布首个实时交互式通用世界模型Genie 3

早报4个月前发布 小马良
166 0

谷歌 DeepMind 近日发布其最新基础模型——Genie 3,一个可生成交互式 3D 环境的通用世界模型(World Model),并宣称这是通往人工通用智能(AGI) 的关键一步。

与以往局限于特定场景的模拟系统不同,Genie 3 能够通过文本提示,生成从逼真照片级环境到幻想世界的多样化场景,并支持长时间、物理一致的实时交互。

谷歌DeepMind 发布首个实时交互式通用世界模型Genie 3

尽管目前仍处于研究预览阶段,尚未公开可用,但其能力已引发广泛关注。

什么是世界模型?为什么它如此重要?

“世界模型”是 AI 系统对物理世界的内部模拟机制,类似于人类大脑对环境的预测与理解能力。

在具身智能(embodied AI)中,代理(agent)需要在一个动态环境中感知、决策、行动并从反馈中学习。传统方法依赖硬编码的物理引擎(如 Unity 或 Unreal),但这类系统缺乏泛化能力,难以模拟真实世界的复杂性与不确定性。

Genie 3 的突破在于:

它不依赖外部物理引擎,而是通过自回归生成,自主学习世界的运行规律

正如 DeepMind 研究总监 Shlomi Fruchter 所言:

“Genie 3 是首个实时交互的通用世界模型,可生成逼真的、想象的,或介于两者之间的任何世界。”

核心能力:从提示到持续交互

Genie 3 建立在两个关键技术基础之上:

  1. Genie 2:前代模型,已具备为 AI 代理生成新环境的能力;
  2. Veo 3:DeepMind 最新的视频生成模型,据称对物理规律有深入理解。

在此基础上,Genie 3 实现了多项关键升级:

  • 720p 分辨率,24fps,支持数分钟的连续生成(远超 Genie 2 的 10–20 秒);
  • 支持可提示的世界事件:用户可通过自然语言干预环境,如“让天气变雨”或“添加障碍物”;
  • 模型具备长期记忆能力:能记住已生成的内容,确保时间上的物理一致性;
  • 完全自回归架构:逐帧生成,每一帧都基于前序帧进行推理。

Fruchter 解释:

“该模型一次生成一帧,必须回顾之前的内容来决定下一步发生什么。这是架构的核心。”

这种机制使 Genie 3 能“理解”物体如何移动、坠落、碰撞,甚至预测玻璃杯在桌边摇晃后将掉落——尽管这些规则并未被显式编程。

为通用代理训练提供理想沙盒

Genie 3 的真正价值,在于它为训练通用 AI 代理提供了可扩展、多样化的模拟环境。

在演示中,DeepMind 将 Genie 3 与其最新通用代理 SIMA(Scalable Instructable Multiworld Agent)结合测试。任务包括:

  • “靠近亮绿色垃圾压缩机”
  • “走向装满货物的红色叉车”

结果显示,SIMA 代理在所有测试中均成功完成目标。Parker-Holder 表示:

“代理接收指令,观察模拟世界,并采取行动。Genie 3 负责向前推进模拟,其一致性是代理成功的关键。”

这意味着:
AI 代理不再只是对输入做出反应,而是在一个连贯、可预测的环境中进行规划、探索与试错学习——这正是人类和动物学习的核心方式。

潜在应用:不止于 AGI

虽然 Genie 3 的主要目标是推动 AGI 研究,但其能力也适用于多个现实场景:

  • 教育:创建可交互的科学实验或历史场景;
  • 游戏开发:快速生成可玩原型与动态关卡;
  • 创意设计:用于建筑、影视等领域的概念验证;
  • 机器人训练:在安全虚拟环境中测试复杂行为策略。

当前局限:距离“真实物理”仍有差距

尽管能力惊人,Genie 3 仍存在明显局限:

  • 物理模拟尚不完美:例如,滑雪者冲下山坡的演示中,雪花未正确反映相对运动;
  • 代理动作受限:当前可执行的动作集有限,无法实现复杂操作;
  • 环境干预非代理自主:“可提示事件”由外部触发,而非代理自身发起;
  • 交互时长不足:仅支持几分钟连续交互,远未达到长期训练所需;
  • 多代理交互挑战:精确建模多个智能体在共享环境中的互动仍具难度。

此外,该模型尚未开放,仅限 DeepMind 内部研究使用。

迈向“第37步时刻”?

在发布会中,研究科学家 Jack Parker-Holder 提到了 AlphaGo 与李世乭对弈中的“第37步”——那是一步人类棋手几乎不会考虑的落子,却展现了 AI 超越人类直觉的战略能力。

他表示:

“我们尚未迎来具身代理的‘第37步时刻’,即它们在现实世界中做出真正新颖、创造性行动的瞬间。”

但 Genie 3 的出现,可能正将我们带入这样一个新时代的门槛。

它让 AI 代理有机会在自我维持的、物理一致的虚拟世界中,通过经验学习因果、规划路径、应对不确定性——这些正是通用智能的基石。(来源

© 版权声明

相关文章

暂无评论

none
暂无评论...