天工AI推出Matrix-Game:首个支持可控交互式游戏世界生成的170亿参数基础模型

昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game,这是一个面向游戏世界的可交互视频生成基础模型,专为 Minecraft 及类似开放世界设计,具备精确控制角色动作、视角变换和复杂行为的能力。

这一模型不仅在视觉质量、时间连贯性方面表现出色,更重要的是实现了对用户操作的高精度响应,标志着从“被动观看”到“主动交互”的关键跃迁。

天工AI推出Matrix-Game:首个支持可控交互式游戏世界生成的170亿参数基础模型

🧠 技术亮点概览

核心能力描述
参数规模超过 170 亿个参数
训练方式两阶段流程:大规模无标签预训练 + 动作标签微调
控制输入支持参考图像、运动帧、键盘与鼠标操作指令
应用场景Minecraft 类沙盒游戏、虚幻引擎游戏等
评估体系引入 GameWorld Score 基准测试,衡量视觉质量、可控性、物理合理性等维度

🔧 模型架构与训练流程

两阶段训练策略

Matrix-Game 采用创新的两阶段训练方法:

  1. 第一阶段:无标签预训练
    • 使用超过 2700 小时 的无标签 Minecraft 游戏片段;
    • 学习世界状态、物体关系与环境动态;
    • 构建通用的游戏空间理解能力。
  2. 第二阶段:动作标签微调
    • 利用超过 1000 小时 的高质量标注数据(包含细粒度键盘与鼠标操作);
    • 实现对用户指令的精准响应;
    • 提升交互式视频生成的可控性与一致性。

数据集说明:我们构建了 Matrix-Game-MC,一个专门用于 Minecraft 世界建模的大规模数据集,涵盖多种地形、光照条件和交互行为。

🎮 模型核心功能

Matrix-Game 支持多种控制输入,实现灵活的交互式视频生成:

控制类型功能描述
图像输入以单张参考图像作为世界起点,进行动态扩展
键盘操作精确响应方向移动、跳跃、攻击等指令
鼠标控制支持摄像头多角度旋转、俯仰、斜角切换
复合动作同时处理多个动作组合,如边跑边跳
动态调整在视频生成过程中实时接收并执行新指令
长时间序列通过自回归机制生成长时间连贯视频

📊 性能评估体系:GameWorld Score

为了更科学地评估 Minecraft 类世界模型的性能,我们提出了全新的统一基准测试 —— GameWorld Score,从以下八个维度全面衡量模型表现:

天工AI推出Matrix-Game:首个支持可控交互式游戏世界生成的170亿参数基础模型
评估维度说明
视觉质量生成画面是否逼真、细节丰富
时间一致性视频序列是否自然流畅
动作可控性是否准确响应用户输入
物理规则理解是否符合现实逻辑(如重力、碰撞)
地形泛化能力对不同地图、环境的适应性
动作多样性是否能生成丰富的行为模式
长视频稳定性自回归生成下的长期连贯性
用户感知真实度人类主观评价的沉浸感与可信度

📈 性能对比与实测结果

在 GameWorld Score 基准测试中,Matrix-Game 表现出显著优势,尤其在可控性和三维一致性方面超越现有开源模型,包括 Oasis 和 MineWorld。

此外,我们进行了双盲人类评估,由两个独立评审小组在四个关键维度上对各模型进行打分:

维度Matrix-Game 相比前代模型被选中的比例
总体质量显著领先
动作可控性明显优于 Oasis 和 MineWorld
视觉质量更加自然、细节丰富
时间一致性长期生成稳定性更强

实验表明,Matrix-Game 在所有指标上均取得最佳表现。

🌍 应用场景与泛化能力

Matrix-Game 不仅适用于 Minecraft 场景,在多个多样化环境中展示了强大的泛化能力:

  • 八种不同地形:平原、山地、丛林、沙漠等;
  • 多样交互动态:战斗、建筑、探索、采集等;
  • 跨平台潜力:初步验证表明,该模型对基于虚幻引擎开发的游戏也具有良好的适配能力。

这意味着它不仅是一个 Minecraft 工具,更是迈向通用游戏世界生成的重要一步。

© 版权声明

相关文章

暂无评论

none
暂无评论...