
从本周起,美国地区的 Google AI Ultra 订阅用户(18 岁以上)可试用 Project Genie —— Google DeepMind 推出的实验性研究原型,旨在探索下一代世界模型(World Model)在互动内容生成中的潜力。
该工具由三大核心组件驱动:
- Genie 3:DeepMind 最新的通用世界模型
- Nano Banana Pro:高保真图像生成模型
- Gemini:提供语义理解与指令解析
用户可通过文本提示或上传图像,生成一个可实时探索的 3D 交互环境,并以第一人称或第三人称视角操控角色在其中移动、互动。

什么是世界模型?为何重要?
世界模型是一类能模拟环境内部状态并预测未来动态的 AI 系统。它不仅能“看到”当前画面,还能推演“如果我向左走,会看到什么?”、“如果推倒这个箱子,会发生什么?”
DeepMind 认为,这类模型是通向通用人工智能(AGI)的关键路径。短期来看,其应用场景将从游戏与娱乐起步,逐步扩展至机器人仿真训练、虚拟教育、历史场景重建等领域。
Project Genie 如何工作?
体验围绕三个核心功能展开:
- 世界草图(World Sketch)
- 输入文本描述(如“黏土动画风格的棉花糖云端城堡”)
- 或上传参考图像(如办公室照片)
- Nano Banana Pro 生成初始画面,支持预览与修改
- 定义角色视角(第一/第三人称)
- 世界探索(World Exploration)
- 进入生成环境,使用 WASD 移动、空格跳跃、方向键环视
- Genie 3 实时生成前方路径,保持空间一致性
- 支持摄像机视角调整
- 世界混音(World Remix)
- 基于现有提示词创建新变体
- 浏览精选画廊获取灵感
- 下载探索过程的视频记录
⚠️ 当前限制:单次会话最多 60 秒。DeepMind 表示,这是因 Genie 3 为自回归模型,需专用芯片资源,延长时长将显著增加成本。
实测表现:艺术风格强,写实感弱
早期用户测试发现:
✅ 优势领域:
- 风格化世界:水彩、动漫、黏土动画等艺术风格表现惊艳
例:用户生成“巧克力酱河流+糖果树”的云端城堡,视觉效果高度契合童年幻想
- 基础交互:角色可行走、跳跃,部分物体对经过有响应(如毛绒玩具触发环境变化)
- 一致性记忆:返回已生成区域时,多数场景能保持结构稳定(仅偶发细节偏差)
❌ 主要局限:
- 写实感不足:照片级真实场景常呈现“电子游戏感”,缺乏物理真实感
- 物理逻辑不稳:角色偶尔穿墙、物体漂浮,碰撞检测不完善
- 控制体验差:非游戏玩家反映按键响应迟滞、移动轨迹混乱
- 图像输入不稳定:上传真实照片后,生成世界常改变布局,且质感“死板、数字化”

安全与版权:护栏已启用
受迪士尼去年 12 月停止函影响(指控 AI 模型训练侵犯 IP),Project Genie 已部署严格内容过滤:
- 无法生成迪士尼角色、美人鱼、冰雪女王等受版权保护内容
- 裸露、暴力等敏感内容被拦截
- 所有生成内容需符合 Google AI 原则
DeepMind 强调:这是一个研究原型,非最终产品,意在收集反馈以改进模型。
行业背景:世界模型竞赛升温
Project Genie 的发布正值全球 AI 公司加速布局世界模型:
- 李飞飞的 World Labs:已推出商业产品 Marble
- Runway:近期发布自家世界模型
- Yann LeCun 创立的 AMI Labs:专注世界模型研发
DeepMind 研究主管 Shlomi Fruchter 表示:“让更多人访问并反馈,是推动技术进步的关键。”
未来方向
团队计划重点改进:
- 提升物理真实性与交互可靠性
- 增加用户控制权(如自定义事件、环境编辑)
- 扩展多模态输入(音频、3D 扫描等)
- 逐步开放至更多国家和地区
“我们不认为 Project Genie 是每天可用的产品,但它展示了某些独特、无法通过其他方式实现的能力。” —— Shlomi Fruchter
数据统计
相关导航


MCP Toolbox for Databases

Flow

Stitch

GenAI Processors

Marble

Google Workspace Studio






