昆仑万维发布 Matrix-Game 2.0：首个开源通用交互式世界模型，把“虚拟世界”推向生产线

307 0

DeepMind 最近发布的 Genie 3 让世界再次看到了“交互式世界模型”的潜力：一个模型，即可生成可玩、可控、长序列的虚拟环境。用户只需按下方向键，就能在一个由 AI 实时渲染的世界中自由探索。

但遗憾的是，Genie 3 仅以技术演示形式发布，未开源、无代码、无训练细节。开发者无法复现，更谈不上集成与创新。

而就在 Genie 3 引发热议之际，昆仑万维给出了一个截然不同的答案。

8 月 12 日，在其“Skywork AI 技术发布周”的第二天，昆仑万维正式推出 Matrix-Game 2.0 —— 一个完全开源、支持通用场景的交互式世界模型。它不仅实现了与 Genie 3 相当的技术能力，更进一步，将这项前沿技术从实验室带入了实际应用场景。

项目主页：https://matrix-game-v2.github.io
GitHub：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-2
模型：https://huggingface.co/Skywork/Matrix-Game-2.0

这是业内首个在通用场景下落地的开源交互式世界模型，标志着 AI 生成世界的能力，正从“技术秀”迈向“可部署、可迭代、可商用”的新阶段。

昆仑万维发布 Matrix-Game 2.0：首个开源通用交互式世界模型，把“虚拟世界”推向生产线

不止是“可玩”，更是“可控”的虚拟世界

Matrix-Game 2.0 的核心能力，是让用户通过键盘和鼠标，在 AI 生成的虚拟世界中进行实时、长序列、物理一致的交互。

它不是一段预渲染的视频，而是一个动态演化的环境。你输入动作，它即时生成画面，帧率稳定在 25 FPS，并能在分钟级长序列中保持空间结构、光照变化和物理逻辑的连贯性。

在 GTA 风格的城市中：

白天主干道车流不息，行人穿梭；
玩家驾驶车辆变道、加速、刹车，动作与画面实时同步；
远处山体、天空、路面反射细节清晰，无明显漂移。

在《我的世界》（MC）像素世界中：

角色跳跃、攀爬、行走，动作与地形碰撞精准匹配；
方块台阶与悬崖边缘无缝衔接，视角切换流畅；
即使在低纹理下，物体位置与交互逻辑依然准确。

在《神庙逃亡》类跑酷场景中：

玩家连续执行转弯、跳跃、下蹲；
模型即时生成对应视角变化，背景透视与动作同步；
无拖影、无卡顿，沉浸感极强。

这些 Demo 背后的意义在于：AI 不仅能生成画面，还能理解空间、响应操作、维持物理一致性——这是迈向“具身智能”和“可编程虚拟世界”的关键一步。

技术架构：绕过语言，直连视觉与动作

与许多依赖文本提示的生成模型不同，Matrix-Game 2.0 完全绕过语言输入，将视觉作为唯一信号源，构建从感知到动作的闭环。

这一设计避免了语言先验带来的语义偏差，让模型直接从画面中学习空间结构、物体关系和物理规律。

其技术架构由三大核心组件构成：

1. 3D Causal VAE：高效时空压缩

在空间与时间两个维度对视频进行压缩；
保留关键动态信息，显著降低计算开销；
支持长序列建模，为实时生成打下基础。

2. 多模态扩散 Transformer（DiT）：融合视觉与动作

将视觉编码与用户的键盘/鼠标指令融合；
逐帧生成符合物理规律的动态视频序列；
解码器通过 3D VAE 还原为完整画面。

3. 动作控制模块：帧级交互响应

借鉴 GameFactory 与 Genie 系列的交互框架；
支持帧级输入响应，实现“操作-生成”无缝衔接。

如何解决长序列生成的三大难题？

长视频生成常面临延迟、误差累积、画面漂移等问题。Matrix-Game 2.0 通过三项关键技术应对：

1. 因果扩散训练（Causal Diffusion Training）

将双向扩散模型蒸馏为因果模型；
仅依赖历史帧生成当前帧，无需等待未来信息；
大幅降低推理延迟，提升实时性。

2. 分布匹配蒸馏（Distribution Matching Distillation, DMD）

在训练中最小化学生模型与教师模型的生成分布差异；
有效抑制长时间生成中的画面漂移；
提升序列稳定性。

3. KV-Cache 缓存机制

缓存注意力上下文，避免重复计算；
实现“滚动生成”，支持无限时长推理；
在单 GPU 上即可达到 25 FPS 的实时性能。

数据与训练：构建高质量交互视频管线

为支撑多场景泛化能力，昆仑万维基于 Unreal Engine 和 GTA5 构建了可扩展的数据生产管线，生成了上千小时的高质量交互视频数据。

这些数据涵盖多种风格与任务场景，包括：

写实城市驾驶
像素风探索
跑酷类高速移动
自然景观漫游

在此基础上，团队训练了多个子模型，适配不同需求：

模型	适用场景
Matrix-Game Uni	多风格静态场景探索
Matrix-Game TempleRun	跑酷类游戏，高精度动作响应
Matrix-Game GTA	动态城市模拟，支持车辆与 NPC 独立运动

这种“统一架构 + 多子模型”的设计，既保证了泛化能力，又提升了特定场景下的表现。

为什么开源？从“卖模型”到“卖系统”的转型

Matrix-Game 2.0 的完全开源，是其与 Genie 3 最根本的区别。

开源意味着：

社区可以复现、改进、二次开发；
开发者能将其直接嵌入游戏引擎、虚拟人系统、具身智能训练平台；
技术迭代速度将不再依赖单一团队，而是由整个生态共同推动。

这背后，是昆仑万维从“卖模型”向“卖系统”的战略转型。

过去，AI 公司多依赖 API 调用或订阅制盈利，模式轻但客户黏性低。而昆仑万维正在构建一套多模态闭环系统，将世界模型、视频生成（SkyReels）、生图模型、智能体等能力整合，为客户提供可直接嵌入工作流的解决方案。

客户不再只是购买一个模型，而是将部分内容生产或交互逻辑“外包”给这套 AI 系统，形成更强的绑定关系。

文章版权归作者所有，未经允许请勿转载。

上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

多模态模型 # InternVL3.5 # 上海AI实验室

7个月前

01830

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

多模态模型 # Nanonets-OCR2 # Qwen2-VL

5个月前

02290

面壁智能发布高效多模态模型 MiniCPM-V 4.0：4B 模型，超越 GPT-4.1-mini

多模态模型 # MiniCPM-V 4.0 # 面壁智能

7个月前

01830

深度求索推出统一图像理解和生成的创新框架JanusFlow：将图像理解和生成统一在一个模型中

多模态模型 # JanusFlow # 深度求索

1年前

06000

暂无评论

暂无评论...