英伟达推出NitroGen:基于人类游戏视频的通用视觉-动作基础模型

NitroGen 是由英伟达开发的开放性具身智能基础模型(foundation model for embodied agents),旨在通过观察人类玩家的游戏视频,直接学习从原始画面到手柄动作的映射。该模型不依赖奖励信号或任务目标,而是通过大规模行为克隆(behavior cloning)在超过 40,000 小时、1,000+ 款商业游戏的公开视频上进行训练,探索视觉-动作智能的泛化能力。

NitroGen 1 是该系列的首个版本,仅供学术研究与非商业开发使用

英伟达推出NitroGen:基于人类游戏视频的通用视觉-动作基础模型

核心目标:探索具身智能的“涌现”能力

与大型语言模型类似,NitroGen 的研究动机是验证:在足够多样、大规模的人类行为数据上进行模仿学习,是否能激发出跨任务、跨环境的通用操作能力
这一路径试图绕过传统强化学习对奖励函数和环境仿真的依赖,直接从“人类怎么做”中学习“智能体该如何做”。

适用场景与局限

✅ 效果最佳的游戏类型(手柄为主):

  • 3D 动作游戏(如《战神》《鬼泣》)
  • 2D 平台跳跃(如《空洞骑士》《蔚蓝》)
  • 竞速/驾驶类(如《马里奥赛车》)
  • 程序生成开放世界(如《我的世界》)

❌ 效果有限的游戏类型(依赖键鼠):

  • RTS(如《星际争霸》)
  • MOBA(如《英雄联盟》)
  • 高精度鼠标操作类游戏

原因:模型输出为手柄动作空间(方向键、ABXY、摇杆等),无法直接映射鼠标坐标或复杂键位组合。

关键技术特点

1. 大规模视频-动作数据集构建

  • 数据来源:YouTube 等平台的公开游戏录屏,其中玩家操作以“输入覆盖”(input overlay)形式实时显示(如屏幕角落的按键提示)。
  • 自动标注:通过模板匹配 + 分割网络,从视频帧中提取按键/摇杆状态,构建帧级动作标签。
  • 规模:40,000+ 小时,覆盖 1,000+ 游戏,无需人工标注。

2. 模型架构:基于扩散的视觉-动作映射

  • 视觉编码器:采用 SigLIP-ViT 等强视觉 backbone,提取游戏画面语义特征
  • 动作生成器:基于 DiT(Diffusion Transformer)架构,通过条件流匹配(Conditional Flow Matching)生成未来动作序列
  • 输入:单帧或短序列 RGB 图像
  • 输出:标准化手柄动作(如摇杆 [-1,1]、按键 [0/1])

3. 训练与迁移范式

  • 预训练:在全量数据集上进行行为克隆,学习通用游戏策略
  • 微调:在新游戏中仅需数小时人类演示数据,即可适配特定任务(如 Boss 战、关卡通关)
  • 零样本迁移:在未见过的游戏中,直接运行预训练模型即可完成基础操作
英伟达推出NitroGen:基于人类游戏视频的通用视觉-动作基础模型

评估与性能

研究团队构建了 NitroBench——一个包含 10 款商业游戏、30 项任务的标准化评估套件,涵盖战斗、探索、平台跳跃、资源收集等场景。

主要结果:

  • 零样本任务成功率:相比从头训练的基线,NitroGen 预训练模型在未见游戏中平均提升 52%
  • 数据效率:在仅 30 小时演示数据下微调,即可在 3D 动作游戏中达到高难度任务的稳定执行
  • 跨类型泛化:同一模型在 2D/3D、固定视角/自由视角、线性关卡/开放世界等不同范式中均表现稳健
© 版权声明

相关文章

暂无评论

none
暂无评论...