谷歌高管暗示 Veo 3 或可用于游戏开发:可玩世界模型未来可期?

早报2周前发布 小马良
32 0

谷歌 DeepMind 的首席执行官 Demis Hassabis 近日在 X 平台(原 Twitter)上对用户关于“能否用 Veo 3 玩游戏”的提问回应称:“这会是件大事吧。”这一简短回复引发了广泛关注。

随后,谷歌 AI Studio 和 Gemini API 产品负责人 Logan Kilpatrick 也以一串 “🤐🤐🤐🤐” 表情符号回应,进一步增添了神秘色彩。尽管目前谷歌官方尚未透露更多细节,但这些来自高层的“戏谑式暗示”无疑激发了业界对其在可玩世界模型方向发展的期待。

谷歌高管暗示 Veo 3 或可用于游戏开发:可玩世界模型未来可期?

世界模型 vs 视频生成模型:本质区别

虽然谷歌最新发布的视频生成模型 Veo 3 在视觉质量和物理模拟方面表现出色,但它仍属于被动输出型视频生成模型,而非真正意义上的“世界模型”。

什么是世界模型?

  • 可预测环境变化与行为响应;
  • 支持智能体(AI 或人类)实时交互;
  • 构建动态、可探索的虚拟世界;
  • 实现从输入到反馈的闭环系统。

Veo 3 的定位:

  • 擅长生成高质量视频片段(最长 8 秒);
  • 支持语音、音效、背景音乐同步生成;
  • 物理模拟逼真,适用于电影化叙事;
  • 尚未具备实时交互和动态响应能力。

换句话说,Veo 3 是一个视觉生成引擎,而非一个可被“游玩”的世界。

谷歌在世界模型上的布局与进展

尽管 Veo 3 尚未达到世界模型的标准,但谷歌在该领域已有深厚积累,并展现出明确的技术路线图。

✅ Genie 2:迈向可玩世界的一步

2024 年 12 月,DeepMind 发布了 Genie 2,一个基于自回归潜在扩散模型的框架,能够通过单张图像生成无限多样的 3D 世界,并支持键盘和鼠标交互。

  • 基于大规模视频数据训练;
  • 模拟物体交互、动画、物理、光照和 NPC 行为;
  • 已被视为“大型现实模型”的代表之一。

✅ 新团队组建:专注现实模拟模型

2025 年初,谷歌成立了一个由前 OpenAI Sora 项目联合负责人 Tim Brooks 领导的新团队,目标是构建能够模拟真实世界动态的 AI 模型。此举表明,谷歌正在加速向 AGI(通用人工智能)迈进。

💡 Veo 3 的潜力与局限性

✔️ 优势

  • 高质量视频生成能力;
  • 精准的物理动作模拟;
  • 支持语音、音效、背景音乐;
  • 可用于游戏中的过场动画、预告片制作等。

❌ 局限

  • 仅生成固定长度视频片段;
  • 缺乏实时互动与动态反馈;
  • 不支持玩家输入驱动的场景演变;
  • 当前仍属“展示型”模型。

因此,尽管 Veo 3 在视觉呈现上令人惊艳,它仍无法实现真正的“可玩性”。

🔄 可能的发展路径:混合架构成为突破口

要让 Veo 3 成为可玩世界模型的一部分,谷歌可能采取一种混合方法

模块功能可能使用的技术
视觉生成创建高保真图像与动画Veo 3
世界交互提供可操作的 3D 场景Genie 2
控制逻辑实时响应玩家输入强化学习 + 多模态控制

这种组合方式不仅能够利用 Veo 3 的视觉生成能力,还能借助 Genie 2 的交互式世界生成技术,推动游戏、虚拟现实、教育等领域的创新应用。

竞争格局:谷歌并非唯一挑战者

谷歌并非唯一一家在探索世界模型的公司:

  • World Labs(李飞飞创立):能从单一图像生成类游戏的 3D 场景,具备空间记忆能力。
  • OpenAI Sora:视频生成能力强大,但尚未公开交互功能。
  • Scenario、Runway、Pika:各自在视频生成与编辑方面持续突破。
  • 微软:结合其 Azure AI 云服务和大模型资源,也在推进相关研究。

不过,凭借 Gemini 模型、DeepMind 技术实力以及 YouTube、Google Maps 等庞大数据资源,谷歌在构建复杂世界模型方面仍具有显著优势。

社区与行业观点:期待与质疑并存

X 平台上的讨论反映出两种声音:

  • 乐观派:认为 Veo 3 的物理模拟能力接近世界模型门槛,未来可期;
  • 理性派:指出当前模型仍为“预设内容”,距离真正可交互、可修改的世界还有距离。

此外,也有开发者担忧谷歌在将前沿研究成果产品化方面的执行力,认为其在落地速度上可能落后于一些初创企业,如 World Labs 和以色列的 Decart。

© 版权声明

相关文章

暂无评论

none
暂无评论...