Genie 3驱动！Project Genie 上线：文本/照片生成可探索世界，限时60秒体验

早报2个月前发布小马良

244 0

Google DeepMind 正式宣布，实验性AI工具 Project Genie 即日起向美国地区的 Google AI Ultra 订阅用户开放访问。这款由最新世界模型 Genie 3、图像生成模型 Nano Banana Pro 与 Gemini 协同驱动的工具，支持通过文本提示或现实照片创建可交互的游戏世界，用户可以第一或第三人称视角探索，标志着DeepMind在世界模型落地应用上迈出关键一步。

Genie 3驱动！Project Genie 上线：文本/照片生成可探索世界，限时60秒体验

什么是 Project Genie？

Project Genie 是 Google DeepMind 推出的实验性研究原型，核心定位是“交互式世界生成工具”。它依托 Genie 3 强大的世界建模能力——实时生成动态环境、模拟物理规则与交互逻辑，再结合 Nano Banana Pro 的图像生成与 Gemini 的自然语言理解，让用户无需专业开发技能，即可快速创建专属互动世界。

此举距 Genie 3 研究预览版发布已有五个月，是 DeepMind 为收集用户反馈、积累训练数据而推进的广泛测试，也是其在通用人工智能（AGI）研发道路上的重要实践。DeepMind 认为，能生成环境内部表征、预测结果并规划行动的世界模型，是实现 AGI 的关键一步；而短期内，这类技术将先应用于视频游戏、娱乐等场景，未来还将扩展到机器人模拟训练等领域。

Genie 3驱动！Project Genie 上线：文本/照片生成可探索世界，限时60秒体验

当前，世界模型赛道竞争已升温：李飞飞团队的 World Labs 推出商业产品 Marble，Runway 近期上线同类世界模型，前 Meta 首席科学家 Yann LeCun 创办的 AMI Labs 也聚焦该领域，Project Genie 的开放是这场技术竞赛的重要节点。

核心功能：三步创建并探索专属世界

Project Genie 的核心体验围绕“世界草图、世界探索、世界混音”三大功能展开，操作流程简洁，同时支持灵活定制：

1. 世界草图：文本/照片均可作为创作起点

文本提示创作：输入描述环境、角色的文本提示（如“黏土动画风格的棉花糖城堡，有巧克力河流和糖果树”），Nano Banana Pro 会生成对应图像，用户可修改调整后作为世界基础；
照片创作：上传现实照片（如办公室、物品特写），模型会以此为蓝本构建互动世界，还原核心元素与场景氛围；
细节定制：可选择第一或第三人称视角，定义角色移动方式（步行、飞行、驾驶等），提前掌控探索体验。

2. 世界探索：实时生成，自由交互

动态生成：确认初始图像后，模型仅需几秒即可构建可导航的完整世界，用户移动时，Genie 3 会实时生成前方路径，保证探索的连续性；
操作控制：通过 W-A-S-D 键移动、箭头键调整视角、空格键跳跃/上升，支持在探索中切换摄像机视角；
记忆一致性：得益于 Genie 3 的自回归架构，模型能记住已生成的环境元素，返回此前探索区域时，大部分场景可保持一致。

3. 世界混音：二次创作与灵感获取

迭代优化：在现有世界的提示词基础上补充描述，即可将其“混音”为新版本，实现快速迭代；
灵感库：可浏览平台精选的世界画廊，或通过随机化工具获取创作灵感，在此基础上扩展自己的世界；
成果导出：探索完成后，支持下载世界生成与探索过程的视频，方便分享或留存。

已知局限：实验性原型的待改进点

作为研究阶段的原型产品，Project Genie 存在明确的局限性，DeepMind 也直言其“表现不一致”：

1. 体验限制

时间限制：单轮世界生成与导航仅支持 60 秒，核心原因是 Genie 3 作为自回归模型，需占用大量专用计算资源，缩短时长是为了让更多用户获得测试机会；
控制体验：非游戏玩家可能需要适应操作逻辑，部分场景下按键响应延迟、方向控制不准，甚至出现角色穿过墙壁等物理规则失效的情况；
内容限制：存在严格的安全护栏，无法生成裸露、版权保护素材（如迪士尼IP）等违规内容，部分奇幻主题（如美人鱼、冰雪女王）也可能被限制。

2. 生成效果差异

风格适配：擅长艺术化风格生成（水彩、动漫、经典卡通等），但在照片级逼真、电影感场景中表现不佳，生成效果偏数字化、不够自然；
照片还原：基于现实照片创建时，可能出现布局错乱、细节失真的问题，整体场景显得死板；
交互深度：环境动态性与交互水平有限，物体响应逻辑较为简单，复杂互动需求暂无法满足。

DeepMind 表示，这些局限性正是后续优化的重点，未来将增强场景真实感、改进操作流畅度，赋予用户更多行动与环境控制权。

使用权限与注意事项

1. 访问资格

目前仅对 美国地区18岁以上的 Google AI Ultra 订阅用户 开放；
后续将根据测试情况，逐步扩展到更多地区与用户群体。

2. 核心提醒

实验性属性：产品仍处于研究阶段，不保证稳定性，可能出现生成结果不符合预期、功能异常等情况；
功能缺失：Genie 3 原有的“可提示事件”（探索中修改世界）等功能暂未包含在当前原型中；
反馈价值：DeepMind 希望通过用户测试，挖掘世界模型的潜在使用场景，为技术迭代提供方向。

早报 # Genie 3 # Project Genie # 世界模型 # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

移动修图进入新阶段！Adobe 正式推出 Android 版 Photoshop Beta

移动修图进入新阶段！Adobe 正式推出 Android 版 Photoshop Beta

早报 # Adobe # Photoshop

10个月前

01640

OpenAI 联手博通开发自研 AI 芯片，预计2026 年部署

OpenAI 联手博通开发自研 AI 芯片，预计2026 年部署

早报 # AI 芯片 # OpenAI # 博通

6个月前

0520

谷歌确认将在Windows 11的Chrome浏览器中集成Gemini，并预告重大AI升级

谷歌确认将在Windows 11的Chrome浏览器中集成Gemini，并预告重大AI升级

百科 # Gemini # Windows 11 # 谷歌

11个月前

04570

Cloudflare CEO：AI爬虫正在侵蚀互联网的商业模式

Cloudflare CEO：AI爬虫正在侵蚀互联网的商业模式

早报 # AI # Cloudflare

9个月前

01870

暂无评论

none

暂无评论...