英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

英伟达推出了一个名为 Cosmos World Foundation Model Platform 的平台,旨在为 Physical AI(物理人工智能)提供定制化的世界模型(World Foundation Models, WFMs)。Physical AI 是一种配备传感器和执行器的 AI 系统,能够观察和修改物理世界。该平台通过构建数字孪生(digital twin)来解决 Physical AI 的数据扩展问题,帮助开发者为特定的 Physical AI 应用场景构建高效、准确的世界模型。

在物理 AI 领域,世界生成技术对于模拟和训练机器人、自动驾驶车辆等智能系统至关重要。然而,传统的世界生成方法往往缺乏灵活性和可控性,难以满足多样化的应用场景需求。为了突破这一瓶颈,英伟达推出了 Cosmos-Transfer1,这是一个条件世界生成模型,能够基于多种空间控制输入生成高度可控的世界模拟。它在多种世界到世界的转换用例中展现出强大的应用潜力,包括 Sim2Real(仿真到现实)和自动驾驶车辆数据增强等。

英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

Cosmos-Transfer1 的核心特性

自适应多模态控制

Cosmos-Transfer1 是一个具有自适应多模态控制的世界生成器,能够处理多种模态输入,如分割图、深度图和边缘图。它通过多个控制分支从这些不同模态输入中提取控制信息,然后利用时空控制图对这些控制分支计算的输出进行加权,将其传输回主生成分支。这种设计使得模型能够在不同区域利用最相关的模态,从而实现最佳输出质量。例如,在生成具有复杂地形和物体分布的世界时,模型可以根据不同区域的特征,动态调整对分割图、深度图和边缘图的依赖程度,以生成更加逼真和符合预期的世界模拟。

高度可控的世界生成

Cosmos-Transfer1 提供了高度可控的世界生成能力。其空间条件方案是自适应的且可定制的,允许在不同空间位置对不同的条件输入进行不同权重的分配。这意味着用户可以根据具体的应用需求,精确地控制世界生成的细节和特征。例如,在机器人 Sim2Real 应用中,用户可以针对机器人操作区域的重点位置,增加对深度图和分割图的权重,以生成更加精确的环境模拟,从而提高机器人在现实世界中的适应性和操作性能。这种高度的可控性为物理 AI 开发者提供了极大的灵活性,使他们能够针对不同的任务和场景定制出最适合的世界模型。

强大的应用潜力

Cosmos-Transfer1 在多种世界到世界的转换用例中展现出强大的应用潜力。在机器人 Sim2Real 应用中,它能够生成与现实世界高度相似的仿真环境,帮助机器人在仿真阶段进行充分的训练,从而提高机器人在实际部署时的性能和可靠性。在自动驾驶车辆数据增强方面,Cosmos-Transfer1 可以生成多样化的驾驶场景,包括不同的天气条件、交通状况和道路类型,为自动驾驶算法提供丰富的训练数据,增强其在复杂现实环境中的决策能力和鲁棒性。此外,它还可以应用于其他需要世界生成和转换的领域,如虚拟现实、游戏开发等,为这些领域提供更加高效和灵活的世界生成解决方案。

英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

NVIDIA Cosmos 平台

预训练模型与训练脚本

NVIDIA Cosmos 是一个以开发者为先的世界基础模型平台,旨在帮助物理 AI 开发者更快更好地构建他们的物理 AI 系统。Cosmos 包含预训练模型和训练脚本,为开发者提供了强大的支持。预训练模型通过 Hugging Face 提供,遵循英伟达开放模型许可,允许免费商业使用这些模型。这意味着开发者可以无需从头开始训练模型,节省大量的时间和计算资源,直接利用预训练模型进行下游任务的开发。同时,训练脚本遵循 Apache 2 许可,开发者可以使用这些脚本对模型进行后训练,以适应各种下游物理 AI 应用。这种灵活的模型训练和使用方式,为开发者提供了极大的便利,使他们能够快速地将 Cosmos-Transfer1 应用于实际项目中。

实验与评估

广泛的评估

为了验证 Cosmos-Transfer1 的性能和有效性,我们进行了广泛的评估。评估涵盖了多个方面,包括模型在不同模态输入下的生成质量、在多种世界到世界的转换任务中的适用性以及与其他现有方法的对比等。实验结果表明,Cosmos-Transfer1 在生成质量和可控性方面表现出色。它能够根据不同的模态输入和空间条件,生成高质量且符合预期的世界模拟。在世界到世界的转换任务中,如 Sim2Real 和自动驾驶车辆数据增强,Cosmos-Transfer1 能够有效地实现从一种世界到另一种世界的转换,为下游应用提供了有力的支持。与其他现有方法相比,Cosmos-Transfer1 在生成质量和灵活性方面具有明显的优势,特别是在处理复杂的多模态输入和实现高度可控的世界生成方面。

推理扩展策略

我们还展示了一种推理扩展策略,利用英伟达 GB200 NVL72 机架实现实时世界生成。这种推理扩展策略使得 Cosmos-Transfer1 能够在实际应用中高效地运行,满足实时性要求。通过优化模型的推理过程和利用强大的硬件资源,Cosmos-Transfer1 能够在短时间内生成高质量的世界模拟,为物理 AI 系统的实时决策和操作提供支持。这一推理扩展策略的实现,进一步提升了 Cosmos-Transfer1 在实际应用中的实用性和竞争力。

© 版权声明

相关文章

暂无评论

none
暂无评论...