谷歌旗下DeepMind推出世界模型Genie 2：生成“无尽”3D世界

谷歌旗下的AI研究机构DeepMind最近推出了Genie 2，这是其今年早些时候发布的Genie模型的继任者。Genie 2能够从单一图像和文本描述（如“森林中的可爱人形机器人”）生成一个互动的实时3D场景。这一技术不仅能够创建丰富的虚拟世界，还允许用户通过键盘或鼠标与这些世界进行互动，执行跳跃、游泳等动作。（官方介绍）

相关：创新人工智能系统Genie：从单一图像提示生成无限种可玩（即可通过行动控制的）游戏场景

Genie 2的关键特点

1、生成多样化的3D世界

Genie 2可以生成“丰富多样的3D世界”，包括用户可以互动的环境。这些世界看起来像3A级视频游戏，部分原因是该模型在视频上进行了训练，尤其是流行游戏的游玩过程。
模型可以模拟物体交互、动画、光照、物理、反射以及非玩家角色（NPC）的行为，使得生成的世界更加真实和动态。

2、智能响应用户输入

Genie 2能够智能地响应用户的操作。例如，当用户按下箭头键时，模型会识别出应该移动的是角色而不是背景中的树木或云朵。这种智能响应使得用户体验更加自然和流畅。

3、一致性和持久性

与许多其他AI生成的3D环境不同，Genie 2可以记住模拟场景中不在视野范围内的部分，并在它们再次可见时准确渲染。这意味着即使用户离开某个区域并返回，场景仍然保持一致，不会出现常见的“遗忘”或伪影问题。
这一特性使得Genie 2生成的世界更加连贯，用户体验更加沉浸。

4、多种视角支持

Genie 2可以生成具有不同视角（如第一人称和等距视角）的一致世界，最长可达一分钟，大多数持续10到20秒。这为用户提供了更多的探索和互动方式。

5、基于视频的训练

Genie 2的训练数据包含了大量视频，尤其是流行视频游戏的游玩过程。这使得生成的世界具有较高的视觉质量和互动性，但同时也引发了关于知识产权的问题。作为谷歌的子公司，DeepMind可以无限制地访问YouTube，而谷歌的服务条款允许其使用YouTube视频进行模型训练。然而，Genie 2是否在创建未经授权的视频游戏副本，可能需要法院来裁定。

应用前景

1、研究工具

DeepMind将Genie 2定位为更多研究和创意工具，用于原型设计“互动体验”和评估AI代理。研究人员可以使用Genie 2快速创建丰富多样的环境，供AI代理在其中进行测试和评估。这有助于生成评估任务，这些任务在训练期间代理未曾见过，从而提高AI系统的泛化能力。

2、创意设计

创意人士可以使用Genie 2将概念艺术和绘图转化为完全互动的环境。这对于电影、游戏、广告等领域来说是一个巨大的突破，因为它大大简化了3D内容的创作过程。
然而，视频游戏行业的从业者可能会对这一技术感到复杂的情感。最近的《连线》杂志调查发现，像动视暴雪这样的主要玩家正在使用AI来削减成本、提高生产力并弥补人员流失。尽管如此，AI工具的引入也可能为创意人士提供更多可能性，帮助他们更快地实现想法。

挑战与争议

知识产权问题

Genie 2的训练数据包含了大量的视频游戏片段，这引发了关于知识产权的担忧。虽然谷歌的服务条款允许其使用YouTube视频进行模型训练，但Genie 2是否在创建未经授权的视频游戏副本，仍然是一个悬而未决的问题。未来可能需要法律介入来明确这一领域的规则。
短期体验限制

目前，Genie 2生成的游戏或场景每分钟或更短时间就会擦除用户的进度。这意味着这些世界更适合用于短期的互动体验或研究目的，而不适合长时间的游戏或应用。

未来发展

1、人才引进

深入研究世界模型的DeepMind已经聘请了多位行业专家。10月，DeepMind聘请了曾是OpenAI Sora视频生成器开发负责人的Tim Brooks，专注于视频生成技术和世界模拟器的工作。两年前，该实验室还从Meta挖来了Tim Rocktäschel，他以在Nethack等视频游戏上的“开放性”实验而闻名。
这些人才的加入表明，DeepMind对世界模型的研究投入了越来越多的资源，旨在推动AI生成3D内容的技术进步。

2、AI的下一个大事件

世界模型被认为是AI的下一个大事件之一。随着技术的不断发展，AI生成的3D世界将变得更加逼真、互动性强，并且能够应用于更广泛的领域，如娱乐、教育、培训等。

谷歌旗下DeepMind推出世界模型Genie 2：生成“无尽”3D世界

Genie 2的关键特点

应用前景

挑战与争议

未来发展

评论0

升级VIP

全屏浏览

夜间模式

返回顶部