谷歌旗下的AI研究机构DeepMind最近推出了Genie 2,这是其今年早些时候发布的Genie模型的继任者。Genie 2能够从单一图像和文本描述(如“森林中的可爱人形机器人”)生成一个互动的实时3D场景。这一技术不仅能够创建丰富的虚拟世界,还允许用户通过键盘或鼠标与这些世界进行互动,执行跳跃、游泳等动作。(官方介绍)
Genie 2的关键特点
1、生成多样化的3D世界
-
Genie 2可以生成“丰富多样的3D世界”,包括用户可以互动的环境。这些世界看起来像3A级视频游戏,部分原因是该模型在视频上进行了训练,尤其是流行游戏的游玩过程。 -
模型可以模拟物体交互、动画、光照、物理、反射以及非玩家角色(NPC)的行为,使得生成的世界更加真实和动态。
2、智能响应用户输入
-
Genie 2能够智能地响应用户的操作。例如,当用户按下箭头键时,模型会识别出应该移动的是角色而不是背景中的树木或云朵。这种智能响应使得用户体验更加自然和流畅。
3、一致性和持久性
-
与许多其他AI生成的3D环境不同,Genie 2可以记住模拟场景中不在视野范围内的部分,并在它们再次可见时准确渲染。这意味着即使用户离开某个区域并返回,场景仍然保持一致,不会出现常见的“遗忘”或伪影问题。 -
这一特性使得Genie 2生成的世界更加连贯,用户体验更加沉浸。
4、多种视角支持
-
Genie 2可以生成具有不同视角(如第一人称和等距视角)的一致世界,最长可达一分钟,大多数持续10到20秒。这为用户提供了更多的探索和互动方式。
5、基于视频的训练
-
Genie 2的训练数据包含了大量视频,尤其是流行视频游戏的游玩过程。这使得生成的世界具有较高的视觉质量和互动性,但同时也引发了关于知识产权的问题。作为谷歌的子公司,DeepMind可以无限制地访问YouTube,而谷歌的服务条款允许其使用YouTube视频进行模型训练。然而,Genie 2是否在创建未经授权的视频游戏副本,可能需要法院来裁定。
应用前景
1、研究工具
-
DeepMind将Genie 2定位为更多研究和创意工具,用于原型设计“互动体验”和评估AI代理。研究人员可以使用Genie 2快速创建丰富多样的环境,供AI代理在其中进行测试和评估。这有助于生成评估任务,这些任务在训练期间代理未曾见过,从而提高AI系统的泛化能力。
2、创意设计
-
创意人士可以使用Genie 2将概念艺术和绘图转化为完全互动的环境。这对于电影、游戏、广告等领域来说是一个巨大的突破,因为它大大简化了3D内容的创作过程。 -
然而,视频游戏行业的从业者可能会对这一技术感到复杂的情感。最近的《连线》杂志调查发现,像动视暴雪这样的主要玩家正在使用AI来削减成本、提高生产力并弥补人员流失。尽管如此,AI工具的引入也可能为创意人士提供更多可能性,帮助他们更快地实现想法。
挑战与争议
-
知识产权问题 Genie 2的训练数据包含了大量的视频游戏片段,这引发了关于知识产权的担忧。虽然谷歌的服务条款允许其使用YouTube视频进行模型训练,但Genie 2是否在创建未经授权的视频游戏副本,仍然是一个悬而未决的问题。未来可能需要法律介入来明确这一领域的规则。
-
短期体验限制 目前,Genie 2生成的游戏或场景每分钟或更短时间就会擦除用户的进度。这意味着这些世界更适合用于短期的互动体验或研究目的,而不适合长时间的游戏或应用。
未来发展
1、人才引进
-
深入研究世界模型的DeepMind已经聘请了多位行业专家。10月,DeepMind聘请了曾是OpenAI Sora视频生成器开发负责人的Tim Brooks,专注于视频生成技术和世界模拟器的工作。两年前,该实验室还从Meta挖来了Tim Rocktäschel,他以在Nethack等视频游戏上的“开放性”实验而闻名。 -
这些人才的加入表明,DeepMind对世界模型的研究投入了越来越多的资源,旨在推动AI生成3D内容的技术进步。
2、AI的下一个大事件
-
世界模型被认为是AI的下一个大事件之一。随着技术的不断发展,AI生成的3D世界将变得更加逼真、互动性强,并且能够应用于更广泛的领域,如娱乐、教育、培训等。
评论0