Project Genie

2个月前发布 25 00

Project Genie 是一个由 Genie 3、Nano Banana Pro 和 Gemini 驱动的原型 Web 应用，允许用户亲身体验我们世界模型的沉浸式体验。

所在地：

美国

收录时间：

2026-01-30

打开网站手机查看

世界模型 # Genie 3 # Project Genie # 世界模型 # 谷歌

Project Genie

Project Genie

从本周起，美国地区的 Google AI Ultra 订阅用户（18 岁以上）可试用 Project Genie —— Google DeepMind 推出的实验性研究原型，旨在探索下一代世界模型（World Model）在互动内容生成中的潜力。

该工具由三大核心组件驱动：

Genie 3：DeepMind 最新的通用世界模型
Nano Banana Pro：高保真图像生成模型
Gemini：提供语义理解与指令解析

用户可通过文本提示或上传图像，生成一个可实时探索的 3D 交互环境，并以第一人称或第三人称视角操控角色在其中移动、互动。

Project Genie

什么是世界模型？为何重要？

世界模型是一类能模拟环境内部状态并预测未来动态的 AI 系统。它不仅能“看到”当前画面，还能推演“如果我向左走，会看到什么？”、“如果推倒这个箱子，会发生什么？”

DeepMind 认为，这类模型是通向通用人工智能（AGI）的关键路径。短期来看，其应用场景将从游戏与娱乐起步，逐步扩展至机器人仿真训练、虚拟教育、历史场景重建等领域。

Project Genie 如何工作？

体验围绕三个核心功能展开：

世界草图（World Sketch）
- 输入文本描述（如“黏土动画风格的棉花糖云端城堡”）
- 或上传参考图像（如办公室照片）
- Nano Banana Pro 生成初始画面，支持预览与修改
- 定义角色视角（第一/第三人称）
世界探索（World Exploration）
- 进入生成环境，使用 WASD 移动、空格跳跃、方向键环视
- Genie 3 实时生成前方路径，保持空间一致性
- 支持摄像机视角调整
世界混音（World Remix）
- 基于现有提示词创建新变体
- 浏览精选画廊获取灵感
- 下载探索过程的视频记录

⚠️ 当前限制：单次会话最多 60 秒。DeepMind 表示，这是因 Genie 3 为自回归模型，需专用芯片资源，延长时长将显著增加成本。

实测表现：艺术风格强，写实感弱

早期用户测试发现：

✅ 优势领域：

风格化世界：水彩、动漫、黏土动画等艺术风格表现惊艳
例：用户生成“巧克力酱河流+糖果树”的云端城堡，视觉效果高度契合童年幻想
基础交互：角色可行走、跳跃，部分物体对经过有响应（如毛绒玩具触发环境变化）
一致性记忆：返回已生成区域时，多数场景能保持结构稳定（仅偶发细节偏差）

❌ 主要局限：

写实感不足：照片级真实场景常呈现“电子游戏感”，缺乏物理真实感
物理逻辑不稳：角色偶尔穿墙、物体漂浮，碰撞检测不完善
控制体验差：非游戏玩家反映按键响应迟滞、移动轨迹混乱
图像输入不稳定：上传真实照片后，生成世界常改变布局，且质感“死板、数字化”

Project Genie

安全与版权：护栏已启用

受迪士尼去年 12 月停止函影响（指控 AI 模型训练侵犯 IP），Project Genie 已部署严格内容过滤：

无法生成迪士尼角色、美人鱼、冰雪女王等受版权保护内容
裸露、暴力等敏感内容被拦截
所有生成内容需符合 Google AI 原则

DeepMind 强调：这是一个研究原型，非最终产品，意在收集反馈以改进模型。

行业背景：世界模型竞赛升温

Project Genie 的发布正值全球 AI 公司加速布局世界模型：

李飞飞的 World Labs：已推出商业产品 Marble
Runway：近期发布自家世界模型
Yann LeCun 创立的 AMI Labs：专注世界模型研发

DeepMind 研究主管 Shlomi Fruchter 表示：“让更多人访问并反馈，是推动技术进步的关键。”

未来方向

团队计划重点改进：

提升物理真实性与交互可靠性
增加用户控制权（如自定义事件、环境编辑）
扩展多模态输入（音频、3D 扫描等）
逐步开放至更多国家和地区

“我们不认为 Project Genie 是每天可用的产品，但它展示了某些独特、无法通过其他方式实现的能力。” —— Shlomi Fruchter

数据统计

相关导航

Firebase Studio

Firebase Studio

Firebase Studio 是一个基于云端的代理开发环境，可帮助您构建和交付具有生产级品质的全栈 AI 应用，包括 API、后端、前端、移动应用等。Firebase Studio 将 Project IDX 与 Firebase 中的专用 AI 代理和 Gemini 协助功能整合在一起，从而提供一个可从任何位置访问的协作工作区，其中包含开发应用所需的一切内容。您可以导入现有项目，也可以使用支持各种语言和框架的模板开始创建新项目。

MCP Toolbox for Databases

MCP Toolbox for Databases

MCP Toolbox for Databases 是一个符合模型上下文协议（MCP）的数据库服务端实现。它封装了数据库连接、认证、查询执行等底层逻辑，让 AI 智能体可以像调用本地函数一样安全地访问数据库。

Marble

由李飞飞联合创立的 World Labs 于2025年11月正式推出其首款商业产品 Marble —— 一款基于文本、图像、视频或全景图生成可编辑、可下载3D环境的AI系统。Marble 采用免费增值模式，提供四个订阅层级，面向游戏、影视、VR等领域的创作者，允许用户将输入内容转化为结构化、可操作的3D资产。

Disco

谷歌推出浏览器 AI 实验产品 Disco，由 Gemini 大模型驱动，能直接把你打开的浏览器标签页，变成量身定制的交互式网页应用 —— 也就是谷歌口中的 GenTabs。不用写一行代码，只需自然语言提示，就能打造专属于你的效率工具。

Google Skills

想快速掌握 AI 和云端技术？Google Skills 来帮你！这不是普通的课程网站，而是一个超完整的技能培养平台，拥有 3000+ 课程和实战实验室。最酷的是它的「边做边学」理念，每个课程都配备真实的 Google Cloud 实操环境。告别枯燥理论，直接上手实践，学习效率和记忆效果直接拉满！从零开始，一步步打造你的技术实力。

Code Wiki

谷歌正式发布了 Code Wiki，这是一个为代码仓库提供持续更新、结构化 Wiki 的全新平台。平台利用 Gemini 生成文档，随着代码演进，文档内容会自动刷新。每一次代码变更后，Code Wiki 都会自动扫描仓库并重新生成全部文档，确保 Wiki 内容始终与最新代码保持高度同步。

Google Vids

Google Vids 是 Google Workspace 推出的一款 AI 辅助视频制作应用，完全集成在谷歌网盘中。它运用 Gemini AI 技术，提供脚本建议、素材推荐和自动生成功能，让用户无需专业剪辑技能，就能在网页浏览器中制作高质量视频。

Agent2Agent

谷歌推出 Agent2Agent（A2A）智能体交互协议，该协议允许生态系统中的 AI 智能体进行底层技术无关的相互操作。多个智能体的协作将带来更高的自主性，同时成倍提高生产力、降低长期成本。

暂无评论

none

暂无评论...