Genie 3驱动!Project Genie 上线:文本/照片生成可探索世界,限时60秒体验

早报8小时前发布 小马良
12 0

Google DeepMind 正式宣布,实验性AI工具 Project Genie 即日起向美国地区的 Google AI Ultra 订阅用户开放访问。这款由最新世界模型Genie 3、图像生成模型 Nano Banana Pro 与 Gemini 协同驱动的工具,支持通过文本提示或现实照片创建可交互的游戏世界,用户可以第一或第三人称视角探索,标志着DeepMind在世界模型落地应用上迈出关键一步。

Genie 3驱动!Project Genie 上线:文本/照片生成可探索世界,限时60秒体验

什么是 Project Genie?

Project Genie 是 Google DeepMind 推出的实验性研究原型,核心定位是“交互式世界生成工具”。它依托 Genie 3 强大的世界建模能力——实时生成动态环境、模拟物理规则与交互逻辑,再结合 Nano Banana Pro 的图像生成与 Gemini 的自然语言理解,让用户无需专业开发技能,即可快速创建专属互动世界。

此举距 Genie 3 研究预览版发布已有五个月,是 DeepMind 为收集用户反馈、积累训练数据而推进的广泛测试,也是其在通用人工智能(AGI)研发道路上的重要实践。DeepMind 认为,能生成环境内部表征、预测结果并规划行动的世界模型,是实现 AGI 的关键一步;而短期内,这类技术将先应用于视频游戏、娱乐等场景,未来还将扩展到机器人模拟训练等领域。

Genie 3驱动!Project Genie 上线:文本/照片生成可探索世界,限时60秒体验

当前,世界模型赛道竞争已升温:李飞飞团队的 World Labs 推出商业产品 Marble,Runway 近期上线同类世界模型,前 Meta 首席科学家 Yann LeCun 创办的 AMI Labs 也聚焦该领域,Project Genie 的开放是这场技术竞赛的重要节点。

核心功能:三步创建并探索专属世界

Project Genie 的核心体验围绕“世界草图、世界探索、世界混音”三大功能展开,操作流程简洁,同时支持灵活定制:

1. 世界草图:文本/照片均可作为创作起点

  • 文本提示创作:输入描述环境、角色的文本提示(如“黏土动画风格的棉花糖城堡,有巧克力河流和糖果树”),Nano Banana Pro 会生成对应图像,用户可修改调整后作为世界基础;
  • 照片创作:上传现实照片(如办公室、物品特写),模型会以此为蓝本构建互动世界,还原核心元素与场景氛围;
  • 细节定制:可选择第一或第三人称视角,定义角色移动方式(步行、飞行、驾驶等),提前掌控探索体验。

2. 世界探索:实时生成,自由交互

  • 动态生成:确认初始图像后,模型仅需几秒即可构建可导航的完整世界,用户移动时,Genie 3 会实时生成前方路径,保证探索的连续性;
  • 操作控制:通过 W-A-S-D 键移动、箭头键调整视角、空格键跳跃/上升,支持在探索中切换摄像机视角;
  • 记忆一致性:得益于 Genie 3 的自回归架构,模型能记住已生成的环境元素,返回此前探索区域时,大部分场景可保持一致。

3. 世界混音:二次创作与灵感获取

  • 迭代优化:在现有世界的提示词基础上补充描述,即可将其“混音”为新版本,实现快速迭代;
  • 灵感库:可浏览平台精选的世界画廊,或通过随机化工具获取创作灵感,在此基础上扩展自己的世界;
  • 成果导出:探索完成后,支持下载世界生成与探索过程的视频,方便分享或留存。

已知局限:实验性原型的待改进点

作为研究阶段的原型产品,Project Genie 存在明确的局限性,DeepMind 也直言其“表现不一致”:

1. 体验限制

  • 时间限制:单轮世界生成与导航仅支持 60 秒,核心原因是 Genie 3 作为自回归模型,需占用大量专用计算资源,缩短时长是为了让更多用户获得测试机会;
  • 控制体验:非游戏玩家可能需要适应操作逻辑,部分场景下按键响应延迟、方向控制不准,甚至出现角色穿过墙壁等物理规则失效的情况;
  • 内容限制:存在严格的安全护栏,无法生成裸露、版权保护素材(如迪士尼IP)等违规内容,部分奇幻主题(如美人鱼、冰雪女王)也可能被限制。

2. 生成效果差异

  • 风格适配:擅长艺术化风格生成(水彩、动漫、经典卡通等),但在照片级逼真、电影感场景中表现不佳,生成效果偏数字化、不够自然;
  • 照片还原:基于现实照片创建时,可能出现布局错乱、细节失真的问题,整体场景显得死板;
  • 交互深度:环境动态性与交互水平有限,物体响应逻辑较为简单,复杂互动需求暂无法满足。

DeepMind 表示,这些局限性正是后续优化的重点,未来将增强场景真实感、改进操作流畅度,赋予用户更多行动与环境控制权。

使用权限与注意事项

1. 访问资格

  • 目前仅对 美国地区18岁以上的 Google AI Ultra 订阅用户 开放;
  • 后续将根据测试情况,逐步扩展到更多地区与用户群体。

2. 核心提醒

  • 实验性属性:产品仍处于研究阶段,不保证稳定性,可能出现生成结果不符合预期、功能异常等情况;
  • 功能缺失:Genie 3 原有的“可提示事件”(探索中修改世界)等功能暂未包含在当前原型中;
  • 反馈价值:DeepMind 希望通过用户测试,挖掘世界模型的潜在使用场景,为技术迭代提供方向。
© 版权声明

相关文章

暂无评论

none
暂无评论...