英伟达推出NitroGen：基于人类游戏视频的通用视觉-动作基础模型

74 0

NitroGen 是由英伟达开发的开放性具身智能基础模型（foundation model for embodied agents），旨在通过观察人类玩家的游戏视频，直接学习从原始画面到手柄动作的映射。该模型不依赖奖励信号或任务目标，而是通过大规模行为克隆（behavior cloning）在超过 40,000 小时、1,000+ 款商业游戏的公开视频上进行训练，探索视觉-动作智能的泛化能力。

项目主页：https://nitrogen.minedojo.org
GitHub：https://github.com/MineDojo/NitroGen
模型：https://huggingface.co/nvidia/NitroGen

NitroGen 1 是该系列的首个版本，仅供学术研究与非商业开发使用。

核心目标：探索具身智能的“涌现”能力

与大型语言模型类似，NitroGen 的研究动机是验证：在足够多样、大规模的人类行为数据上进行模仿学习，是否能激发出跨任务、跨环境的通用操作能力？
这一路径试图绕过传统强化学习对奖励函数和环境仿真的依赖，直接从“人类怎么做”中学习“智能体该如何做”。

适用场景与局限

✅ 效果最佳的游戏类型（手柄为主）：

3D 动作游戏（如《战神》《鬼泣》）
2D 平台跳跃（如《空洞骑士》《蔚蓝》）
竞速/驾驶类（如《马里奥赛车》）
程序生成开放世界（如《我的世界》）

❌ 效果有限的游戏类型（依赖键鼠）：

RTS（如《星际争霸》）
MOBA（如《英雄联盟》）
高精度鼠标操作类游戏

原因：模型输出为手柄动作空间（方向键、ABXY、摇杆等），无法直接映射鼠标坐标或复杂键位组合。

关键技术特点

1. 大规模视频-动作数据集构建

数据来源：YouTube 等平台的公开游戏录屏，其中玩家操作以“输入覆盖”（input overlay）形式实时显示（如屏幕角落的按键提示）。
自动标注：通过模板匹配 + 分割网络，从视频帧中提取按键/摇杆状态，构建帧级动作标签。
规模：40,000+ 小时，覆盖 1,000+ 游戏，无需人工标注。

2. 模型架构：基于扩散的视觉-动作映射

视觉编码器：采用 SigLIP-ViT 等强视觉 backbone，提取游戏画面语义特征
动作生成器：基于 DiT（Diffusion Transformer）架构，通过条件流匹配（Conditional Flow Matching）生成未来动作序列
输入：单帧或短序列 RGB 图像
输出：标准化手柄动作（如摇杆 [-1,1]、按键 [0/1]）