昆仑万维发布 Matrix-Game 2.0:首个开源通用交互式世界模型,把“虚拟世界”推向生产线

多模态模型4个月前发布 小马良
192 0

DeepMind 最近发布的 Genie 3 让世界再次看到了“交互式世界模型”的潜力:一个模型,即可生成可玩、可控、长序列的虚拟环境。用户只需按下方向键,就能在一个由 AI 实时渲染的世界中自由探索。

但遗憾的是,Genie 3 仅以技术演示形式发布,未开源、无代码、无训练细节。开发者无法复现,更谈不上集成与创新。

而就在 Genie 3 引发热议之际,昆仑万维给出了一个截然不同的答案。

8 月 12 日,在其“Skywork AI 技术发布周”的第二天,昆仑万维正式推出 Matrix-Game 2.0 —— 一个完全开源、支持通用场景的交互式世界模型。它不仅实现了与 Genie 3 相当的技术能力,更进一步,将这项前沿技术从实验室带入了实际应用场景。

这是业内首个在通用场景下落地的开源交互式世界模型,标志着 AI 生成世界的能力,正从“技术秀”迈向“可部署、可迭代、可商用”的新阶段。

昆仑万维发布 Matrix-Game 2.0:首个开源通用交互式世界模型,把“虚拟世界”推向生产线

不止是“可玩”,更是“可控”的虚拟世界

Matrix-Game 2.0 的核心能力,是让用户通过键盘和鼠标,在 AI 生成的虚拟世界中进行实时、长序列、物理一致的交互

它不是一段预渲染的视频,而是一个动态演化的环境。你输入动作,它即时生成画面,帧率稳定在 25 FPS,并能在分钟级长序列中保持空间结构、光照变化和物理逻辑的连贯性。

在 GTA 风格的城市中:

  • 白天主干道车流不息,行人穿梭;
  • 玩家驾驶车辆变道、加速、刹车,动作与画面实时同步;
  • 远处山体、天空、路面反射细节清晰,无明显漂移。
昆仑万维发布 Matrix-Game 2.0:首个开源通用交互式世界模型,把“虚拟世界”推向生产线

在《我的世界》(MC)像素世界中:

  • 角色跳跃、攀爬、行走,动作与地形碰撞精准匹配;
  • 方块台阶与悬崖边缘无缝衔接,视角切换流畅;
  • 即使在低纹理下,物体位置与交互逻辑依然准确。

在《神庙逃亡》类跑酷场景中:

  • 玩家连续执行转弯、跳跃、下蹲;
  • 模型即时生成对应视角变化,背景透视与动作同步;
  • 无拖影、无卡顿,沉浸感极强。

这些 Demo 背后的意义在于:AI 不仅能生成画面,还能理解空间、响应操作、维持物理一致性——这是迈向“具身智能”和“可编程虚拟世界”的关键一步。

技术架构:绕过语言,直连视觉与动作

与许多依赖文本提示的生成模型不同,Matrix-Game 2.0 完全绕过语言输入,将视觉作为唯一信号源,构建从感知到动作的闭环。

昆仑万维发布 Matrix-Game 2.0:首个开源通用交互式世界模型,把“虚拟世界”推向生产线

这一设计避免了语言先验带来的语义偏差,让模型直接从画面中学习空间结构、物体关系和物理规律。

其技术架构由三大核心组件构成:

1. 3D Causal VAE:高效时空压缩

  • 在空间与时间两个维度对视频进行压缩;
  • 保留关键动态信息,显著降低计算开销;
  • 支持长序列建模,为实时生成打下基础。

2. 多模态扩散 Transformer(DiT):融合视觉与动作

  • 将视觉编码与用户的键盘/鼠标指令融合;
  • 逐帧生成符合物理规律的动态视频序列;
  • 解码器通过 3D VAE 还原为完整画面。

3. 动作控制模块:帧级交互响应

  • 借鉴 GameFactory 与 Genie 系列的交互框架;
  • 支持帧级输入响应,实现“操作-生成”无缝衔接。

如何解决长序列生成的三大难题?

长视频生成常面临延迟、误差累积、画面漂移等问题。Matrix-Game 2.0 通过三项关键技术应对:

1. 因果扩散训练(Causal Diffusion Training)

  • 将双向扩散模型蒸馏为因果模型;
  • 仅依赖历史帧生成当前帧,无需等待未来信息;
  • 大幅降低推理延迟,提升实时性。

2. 分布匹配蒸馏(Distribution Matching Distillation, DMD)

  • 在训练中最小化学生模型与教师模型的生成分布差异;
  • 有效抑制长时间生成中的画面漂移;
  • 提升序列稳定性。

3. KV-Cache 缓存机制

  • 缓存注意力上下文,避免重复计算;
  • 实现“滚动生成”,支持无限时长推理;
  • 在单 GPU 上即可达到 25 FPS 的实时性能。

数据与训练:构建高质量交互视频管线

为支撑多场景泛化能力,昆仑万维基于 Unreal Engine 和 GTA5 构建了可扩展的数据生产管线,生成了上千小时的高质量交互视频数据。

这些数据涵盖多种风格与任务场景,包括:

  • 写实城市驾驶
  • 像素风探索
  • 跑酷类高速移动
  • 自然景观漫游

在此基础上,团队训练了多个子模型,适配不同需求:

模型适用场景
Matrix-Game Uni多风格静态场景探索
Matrix-Game TempleRun跑酷类游戏,高精度动作响应
Matrix-Game GTA动态城市模拟,支持车辆与 NPC 独立运动

这种“统一架构 + 多子模型”的设计,既保证了泛化能力,又提升了特定场景下的表现。

为什么开源?从“卖模型”到“卖系统”的转型

Matrix-Game 2.0 的完全开源,是其与 Genie 3 最根本的区别。

开源意味着:

  • 社区可以复现、改进、二次开发
  • 开发者能将其直接嵌入游戏引擎、虚拟人系统、具身智能训练平台
  • 技术迭代速度将不再依赖单一团队,而是由整个生态共同推动。

这背后,是昆仑万维从“卖模型”向“卖系统”的战略转型。

过去,AI 公司多依赖 API 调用或订阅制盈利,模式轻但客户黏性低。而昆仑万维正在构建一套多模态闭环系统,将世界模型、视频生成(SkyReels)、生图模型、智能体等能力整合,为客户提供可直接嵌入工作流的解决方案。

客户不再只是购买一个模型,而是将部分内容生产或交互逻辑“外包”给这套 AI 系统,形成更强的绑定关系。

© 版权声明

相关文章

暂无评论

none
暂无评论...