昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game,这是一个面向游戏世界的可交互视频生成基础模型,专为 Minecraft 及类似开放世界设计,具备精确控制角色动作、视角变换和复杂行为的能力。
- 项目主页:https://matrix-game-homepage.github.io
- GitHub:https://github.com/SkyworkAI/Matrix-Game
- 模型:https://huggingface.co/Skywork/Matrix-Game
这一模型不仅在视觉质量、时间连贯性方面表现出色,更重要的是实现了对用户操作的高精度响应,标志着从“被动观看”到“主动交互”的关键跃迁。

🧠 技术亮点概览
核心能力 | 描述 |
---|---|
参数规模 | 超过 170 亿个参数 |
训练方式 | 两阶段流程:大规模无标签预训练 + 动作标签微调 |
控制输入 | 支持参考图像、运动帧、键盘与鼠标操作指令 |
应用场景 | Minecraft 类沙盒游戏、虚幻引擎游戏等 |
评估体系 | 引入 GameWorld Score 基准测试,衡量视觉质量、可控性、物理合理性等维度 |
🔧 模型架构与训练流程
两阶段训练策略
Matrix-Game 采用创新的两阶段训练方法:
- 第一阶段:无标签预训练
- 使用超过 2700 小时 的无标签 Minecraft 游戏片段;
- 学习世界状态、物体关系与环境动态;
- 构建通用的游戏空间理解能力。
- 第二阶段:动作标签微调
- 利用超过 1000 小时 的高质量标注数据(包含细粒度键盘与鼠标操作);
- 实现对用户指令的精准响应;
- 提升交互式视频生成的可控性与一致性。
数据集说明:我们构建了 Matrix-Game-MC,一个专门用于 Minecraft 世界建模的大规模数据集,涵盖多种地形、光照条件和交互行为。
🎮 模型核心功能
Matrix-Game 支持多种控制输入,实现灵活的交互式视频生成:
控制类型 | 功能描述 |
---|---|
图像输入 | 以单张参考图像作为世界起点,进行动态扩展 |
键盘操作 | 精确响应方向移动、跳跃、攻击等指令 |
鼠标控制 | 支持摄像头多角度旋转、俯仰、斜角切换 |
复合动作 | 同时处理多个动作组合,如边跑边跳 |
动态调整 | 在视频生成过程中实时接收并执行新指令 |
长时间序列 | 通过自回归机制生成长时间连贯视频 |
📊 性能评估体系:GameWorld Score
为了更科学地评估 Minecraft 类世界模型的性能,我们提出了全新的统一基准测试 —— GameWorld Score,从以下八个维度全面衡量模型表现:

评估维度 | 说明 |
---|---|
视觉质量 | 生成画面是否逼真、细节丰富 |
时间一致性 | 视频序列是否自然流畅 |
动作可控性 | 是否准确响应用户输入 |
物理规则理解 | 是否符合现实逻辑(如重力、碰撞) |
地形泛化能力 | 对不同地图、环境的适应性 |
动作多样性 | 是否能生成丰富的行为模式 |
长视频稳定性 | 自回归生成下的长期连贯性 |
用户感知真实度 | 人类主观评价的沉浸感与可信度 |
📈 性能对比与实测结果
在 GameWorld Score 基准测试中,Matrix-Game 表现出显著优势,尤其在可控性和三维一致性方面超越现有开源模型,包括 Oasis 和 MineWorld。
此外,我们进行了双盲人类评估,由两个独立评审小组在四个关键维度上对各模型进行打分:
维度 | Matrix-Game 相比前代模型被选中的比例 |
---|---|
总体质量 | 显著领先 |
动作可控性 | 明显优于 Oasis 和 MineWorld |
视觉质量 | 更加自然、细节丰富 |
时间一致性 | 长期生成稳定性更强 |
实验表明,Matrix-Game 在所有指标上均取得最佳表现。
🌍 应用场景与泛化能力
Matrix-Game 不仅适用于 Minecraft 场景,在多个多样化环境中展示了强大的泛化能力:
- 八种不同地形:平原、山地、丛林、沙漠等;
- 多样交互动态:战斗、建筑、探索、采集等;
- 跨平台潜力:初步验证表明,该模型对基于虚幻引擎开发的游戏也具有良好的适配能力。
这意味着它不仅是一个 Minecraft 工具,更是迈向通用游戏世界生成的重要一步。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...