DeepMind 最近发布的 Genie 3 让世界再次看到了“交互式世界模型”的潜力:一个模型,即可生成可玩、可控、长序列的虚拟环境。用户只需按下方向键,就能在一个由 AI 实时渲染的世界中自由探索。
但遗憾的是,Genie 3 仅以技术演示形式发布,未开源、无代码、无训练细节。开发者无法复现,更谈不上集成与创新。
而就在 Genie 3 引发热议之际,昆仑万维给出了一个截然不同的答案。
8 月 12 日,在其“Skywork AI 技术发布周”的第二天,昆仑万维正式推出 Matrix-Game 2.0 —— 一个完全开源、支持通用场景的交互式世界模型。它不仅实现了与 Genie 3 相当的技术能力,更进一步,将这项前沿技术从实验室带入了实际应用场景。
- 项目主页:https://matrix-game-v2.github.io
- GitHub:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-2
- 模型:https://huggingface.co/Skywork/Matrix-Game-2.0
这是业内首个在通用场景下落地的开源交互式世界模型,标志着 AI 生成世界的能力,正从“技术秀”迈向“可部署、可迭代、可商用”的新阶段。

不止是“可玩”,更是“可控”的虚拟世界
Matrix-Game 2.0 的核心能力,是让用户通过键盘和鼠标,在 AI 生成的虚拟世界中进行实时、长序列、物理一致的交互。
它不是一段预渲染的视频,而是一个动态演化的环境。你输入动作,它即时生成画面,帧率稳定在 25 FPS,并能在分钟级长序列中保持空间结构、光照变化和物理逻辑的连贯性。
在 GTA 风格的城市中:
- 白天主干道车流不息,行人穿梭;
- 玩家驾驶车辆变道、加速、刹车,动作与画面实时同步;
- 远处山体、天空、路面反射细节清晰,无明显漂移。

在《我的世界》(MC)像素世界中:
- 角色跳跃、攀爬、行走,动作与地形碰撞精准匹配;
- 方块台阶与悬崖边缘无缝衔接,视角切换流畅;
- 即使在低纹理下,物体位置与交互逻辑依然准确。
在《神庙逃亡》类跑酷场景中:
- 玩家连续执行转弯、跳跃、下蹲;
- 模型即时生成对应视角变化,背景透视与动作同步;
- 无拖影、无卡顿,沉浸感极强。
这些 Demo 背后的意义在于:AI 不仅能生成画面,还能理解空间、响应操作、维持物理一致性——这是迈向“具身智能”和“可编程虚拟世界”的关键一步。
技术架构:绕过语言,直连视觉与动作
与许多依赖文本提示的生成模型不同,Matrix-Game 2.0 完全绕过语言输入,将视觉作为唯一信号源,构建从感知到动作的闭环。

这一设计避免了语言先验带来的语义偏差,让模型直接从画面中学习空间结构、物体关系和物理规律。
其技术架构由三大核心组件构成:
1. 3D Causal VAE:高效时空压缩
- 在空间与时间两个维度对视频进行压缩;
- 保留关键动态信息,显著降低计算开销;
- 支持长序列建模,为实时生成打下基础。
2. 多模态扩散 Transformer(DiT):融合视觉与动作
- 将视觉编码与用户的键盘/鼠标指令融合;
- 逐帧生成符合物理规律的动态视频序列;
- 解码器通过 3D VAE 还原为完整画面。
3. 动作控制模块:帧级交互响应
- 借鉴 GameFactory 与 Genie 系列的交互框架;
- 支持帧级输入响应,实现“操作-生成”无缝衔接。
如何解决长序列生成的三大难题?
长视频生成常面临延迟、误差累积、画面漂移等问题。Matrix-Game 2.0 通过三项关键技术应对:
1. 因果扩散训练(Causal Diffusion Training)
- 将双向扩散模型蒸馏为因果模型;
- 仅依赖历史帧生成当前帧,无需等待未来信息;
- 大幅降低推理延迟,提升实时性。
2. 分布匹配蒸馏(Distribution Matching Distillation, DMD)
- 在训练中最小化学生模型与教师模型的生成分布差异;
- 有效抑制长时间生成中的画面漂移;
- 提升序列稳定性。
3. KV-Cache 缓存机制
- 缓存注意力上下文,避免重复计算;
- 实现“滚动生成”,支持无限时长推理;
- 在单 GPU 上即可达到 25 FPS 的实时性能。
数据与训练:构建高质量交互视频管线
为支撑多场景泛化能力,昆仑万维基于 Unreal Engine 和 GTA5 构建了可扩展的数据生产管线,生成了上千小时的高质量交互视频数据。
这些数据涵盖多种风格与任务场景,包括:
- 写实城市驾驶
- 像素风探索
- 跑酷类高速移动
- 自然景观漫游
在此基础上,团队训练了多个子模型,适配不同需求:
| 模型 | 适用场景 |
|---|---|
| Matrix-Game Uni | 多风格静态场景探索 |
| Matrix-Game TempleRun | 跑酷类游戏,高精度动作响应 |
| Matrix-Game GTA | 动态城市模拟,支持车辆与 NPC 独立运动 |
这种“统一架构 + 多子模型”的设计,既保证了泛化能力,又提升了特定场景下的表现。
为什么开源?从“卖模型”到“卖系统”的转型
Matrix-Game 2.0 的完全开源,是其与 Genie 3 最根本的区别。
开源意味着:
- 社区可以复现、改进、二次开发;
- 开发者能将其直接嵌入游戏引擎、虚拟人系统、具身智能训练平台;
- 技术迭代速度将不再依赖单一团队,而是由整个生态共同推动。
这背后,是昆仑万维从“卖模型”向“卖系统”的战略转型。
过去,AI 公司多依赖 API 调用或订阅制盈利,模式轻但客户黏性低。而昆仑万维正在构建一套多模态闭环系统,将世界模型、视频生成(SkyReels)、生图模型、智能体等能力整合,为客户提供可直接嵌入工作流的解决方案。
客户不再只是购买一个模型,而是将部分内容生产或交互逻辑“外包”给这套 AI 系统,形成更强的绑定关系。















