英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

人形机器人旨在适应人类工作空间,处理重复性或高要求任务。然而,为现实世界的任务和不可预测环境开发通用人形机器人具有挑战性。每项任务通常需要专用的AI模型。从头开始为每个新任务和环境训练这些模型是一个繁重的过程,因为需要大量特定任务数据、高计算成本,且泛化能力有限。

英伟达Isaac GR00T通过提供开源SimReady数据、仿真框架(如英伟达Isaac Sim和Isaac Lab)、合成数据蓝图以及预训练基础模型,帮助应对这些挑战并加速通用人形机器人的开发。

英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

英伟达Isaac GR00T N1的特点与优势

英伟达Isaac GR00T N1是全球首个用于通用人形机器人推理和技能的开源基础模型。这一跨形态模型接受多模态输入,包括语言和图像,以在多样化环境中执行操作任务。

GR00T N1在庞大的人形数据集上训练,并结合使用英伟达Isaac GR00T蓝图组件生成的合成数据以及互联网规模的视频数据进行补充。它可通过后训练适应特定形态、任务和环境。这些数据的一个子集现已通过Hugging Face上的开源NVIDIA物理AI数据集免费提供给开发者社区。

GR00T N1使用单一模型和权重集,使人形机器人(如Fourier GR-1和1X Neo)能够执行操作行为。它展示了在多种任务中的强大泛化能力,包括单臂或双臂抓取和操作物体,以及在双臂间传递物体。

它还能执行需要持续上下文理解和多种技能整合的复杂多步骤任务。这些能力使其非常适合物料处理、包装和检查等应用。

英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

今天,英伟达宣布推出GR00T N1 2B模型,这是我们将预训练并发布的一系列完全可定制模型中的第一个。

GR00T N1模型架构

GR00T N1采用受人类认知启发的双系统架构,包括以下互补组件:

  • 视觉-语言模型(系统2):这一系统基于NVIDIA-Eagle与SmolLM-1.7B的深思熟虑思维系统,通过视觉和语言指令解释环境,使机器人能够推理环境和指令,并规划正确的行动。
  • 扩散变换器(系统1):这一动作模型生成连续动作以控制机器人运动,将系统2制定的行动计划转化为精确、连续的机器人动作。

这两个系统紧密耦合,使其能够在后训练期间一起优化。

英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

GR00T N1预训练数据策略

训练像GR00T N1这样的通用模型需要强大的数据策略,充分利用多样化数据类型的互补优势。GR00T N1的训练数据形成金字塔结构,从底部到顶部数据量减少,形态特异性增加。

  • 基础层是互联网规模的网络数据和人类视频,提供广泛的视觉和语言信息。这些数据集捕捉了人与物体的互动,提供了自然运动模式和任务语义的见解。
  • 中间层包含由英伟达Omniverse平台生成的合成数据。
  • 顶层是通过各种平台远程操作收集的真实机器人数据,提供了对机器人能力的精确洞察。

以人为中心的在线视频为人类与物体互动提供了宝贵见解,但缺乏机器人运动控制信号。仿真数据通过GPU加速提供无限实时数据填补这一空白,尽管存在仿真到现实的差距。

真实机器人数据弥补了这一差距,但成本高且耗时。通过结合这些多样化数据并使用如隐性动作训练等技术(该技术使机器人无需监督即可从大规模未标记人类视频数据中学习),形成了一种增强机器人训练的强大策略,提升了GR00T N1的性能和适应性。

这一方法通过英伟达Isaac GR00T蓝图付诸实践。使用该蓝图,在短短11小时内生成了超过75万个合成轨迹,相当于6500小时或连续九个月的人类演示数据。将这些合成数据与真实数据整合后,GR00T N1的性能比仅使用真实数据提高了40%。

GR00T N1上手体验

你可以通过以下步骤开始使用GR00T N1:

  • 数据准备:将你的机器人演示数据(视频、状态、动作)三元组格式化为GR00T数据集,该数据集与Hugging Face的LeRobot格式兼容。
  • 数据验证:使用验证脚本确保你的数据符合正确格式。
  • 后训练:使用PyTorch脚本通过你的定制数据集微调预训练的GR00T N1模型。
  • 推理:将推理脚本连接到你的机器人控制器,在目标硬件或使用后训练的GR00T N1模型的仿真环境中执行动作。
  • 评估:运行评估脚本以获取模型的任务成功率。

性能

GR00T N1模型通过仿真和现实世界基准测试进行评估,以检验其在不同机器人形态和操作任务中的性能。仿真实验使用了三个不同的基准,而现实世界测试则专注于使用GR-1人形机器人进行的桌面操作任务。

仿真基准

仿真实验使用了三个基准:两个来自先前研究的开源基准和一个反映现实世界桌面操作任务的新套件,选择这些基准以评估模型在不同机器人形态和多样化操作任务中的表现。

英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

真实基准

模型在一系列需要精确物体处理、协调双手运动和高级空间意识的操作任务中进行评估,以实现复杂交互中的精细控制。

与Diffusion Policy基线相比,Isaac GR00T N1模型展示了更平滑、更流畅的运动,以及在较小后训练数据集上微调时显著提高的抓取精度。

英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

结果进一步表明,GR00T N1不仅能更高效地学习新任务,还能比基线方法更精确地遵循语言指令。

立即开始

你可以通过以下资源开始使用GR00T N1:

后训练和推理的硬件配置建议

  • 后训练:最低配置为一个 NVIDIA RTX A6000 或一个 NVIDIA GeForce RTX 4090 GPU。对于更高需求,建议配置包括 NVIDIA DGX Spark 或 NVIDIA DGX H100 系统。
  • 推理:GR00T N1 模型可部署在 NVIDIA RTX A6000 GPU 或 NVIDIA Jetson AGX Orin 超级计算机上。
© 版权声明

相关文章

暂无评论

none
暂无评论...