英伟达在CES2025上宣布推出 NVIDIA Cosmos 平台,该平台包含先进的世界基础生成模型、高级分词器、防护栏和加速视频处理管道,旨在推动自动驾驶汽车(AV)和机器人等物理 AI 系统的发展。物理 AI 模型的开发成本高昂,且需要大量真实世界数据和测试。Cosmos 世界基础模型(WFM)为开发者提供了一种简单的方法,生成大量基于物理的光学真实合成数据,用于训练和评估现有模型。开发者还可以通过微调 Cosmos WFM 来构建自定义模型。
- 项目主页:https://www.nvidia.com/en-us/ai/cosmos
- GitHub:https://github.com/NVIDIA/Cosmos
- 模型:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
- Demo:https://build.nvidia.com/nvidia/cosmos-1_0-diffusion-7b
Cosmos 模型将以开放模型许可证的形式提供,以加速机器人和自动驾驶汽车社区的工作。开发者可以在 NVIDIA API 目录 上预览首批模型,或从 NVIDIA NGC目录 或 Hugging Face 下载模型系列和微调框架。
包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和 XPENG 在内的领先机器人及汽车公司,以及共享出行巨头 Uber,均已率先采用 Cosmos。
英伟达创始人兼首席执行官黄仁勋表示:“机器人领域的‘ChatGPT 时刻’即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车的发展至关重要,但并非所有开发者都具备训练自有模型的专业知识和资源,我们创建 Cosmos 是为了普及物理 AI,让每位开发者都能触及通用机器人技术。”
开放世界基础模型加速下一波 AI 浪潮
NVIDIA Cosmos 的开放模型套件意味着开发者可以根据目标应用的需求,使用数据集(如自动驾驶汽车行程或机器人在仓库中导航的视频记录)定制 WFM。
Cosmos WFM 专为物理 AI 研发而打造,能够从文本、图像、视频以及机器人传感器或运动数据等输入组合中生成基于物理的视频。这些模型专为基于物理的交互、物体持久性以及高质量模拟工业环境(如仓库或工厂)和驾驶环境(包括各种路况)而构建。
在 CES 开幕主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋展示了物理 AI 开发者使用 Cosmos 模型的方式,包括:
- 视频搜索与理解:使开发者能够轻松从视频数据中找到特定训练场景,如雪天路况或仓库拥堵。
- 基于物理的光学真实合成数据生成:使用 Cosmos 模型从 NVIDIA Omniverse™ 平台开发的受控 3D 场景中生成光学真实视频。
- 物理 AI 模型开发与评估:无论是基于基础模型构建自定义模型,还是使用 Cosmos 改进模型以进行强化学习,或测试模型在特定模拟场景中的表现。
- 预见性与‘多元宇宙’模拟:使用 Cosmos 和 Omniverse 生成 AI 模型可能采取的每一种未来结果,以帮助其选择最佳且最准确的路径。
先进的世界模型开发工具
构建物理 AI 模型需要 PB 级视频数据和数万计算小时来处理、整理和标注这些数据。为了帮助节省数据整理、训练和模型定制方面的巨大成本,Cosmos 具备以下特点:
- NVIDIA AI 和 CUDA® 加速的数据处理管道:由 NVIDIA NeMo™ Curator 提供支持,使开发者能够在 14 天内使用 NVIDIA Blackwell 平台处理、整理和标注 2000 万小时的视频,而仅使用 CPU 管道则需要三年以上。
- NVIDIA Cosmos Tokenizer:一种先进的视觉分词器,用于将图像和视频转换为标记。其总压缩率比当今领先的分词器高 8 倍,处理速度快 12 倍。
- NVIDIA NeMo 框架:用于高效模型训练、定制和优化。
全球最大物理 AI 行业采用 Cosmos
物理 AI 行业的先驱们已经开始采用 Cosmos 技术。AI 和人形机器人公司 1X 使用 Cosmos Tokenizer 发布了 1X 世界模型挑战 数据集。XPENG 将使用 Cosmos 加速其人形机器人的开发。Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用机器人的开发。
Agility 首席技术官 Pras Velagapudi 表示:“数据稀缺性和可变性是机器人环境中成功学习的关键挑战,Cosmos 的文本、图像和视频到世界的能力使我们能够生成和增强各种任务的光学真实场景,从而训练模型,而无需大量昂贵的真实世界数据捕获。”
交通领域的领导者也在使用 Cosmos 构建自动驾驶汽车的物理 AI:
- 致力于从自动驾驶汽车开始为物理世界开创生成 AI 的公司 Waabi 正在评估 Cosmos 在自动驾驶软件开发与仿真数据整理中的应用。
- 开发自动驾驶 AI 基础模型的 Wayve 正在评估 Cosmos 作为搜索边缘和极端驾驶场景的工具,用于安全和验证。
- 自动驾驶工具链提供商 Foretellix 将使用 Cosmos 和 NVIDIA Omniverse Sensor RTX API 来评估和生成高保真测试场景和训练数据。
- 全球共享出行巨头 Uber 正在与 NVIDIA 合作,加速自动驾驶出行。Uber 丰富的驾驶数据集与 Cosmos 平台和 NVIDIA DGX Cloud™ 的功能相结合,可以帮助自动驾驶合作伙伴更高效地构建更强大的 AI 模型。
Uber 首席执行官 Dara Khosrowshahi 表示:“生成 AI 将推动未来出行的发展,这需要丰富的数据和非常强大的计算能力,通过与 NVIDIA 合作,我们有信心能够加速行业安全且可扩展的自动驾驶解决方案的时间表。”
开发开放、安全且负责任的 AI
NVIDIA Cosmos 的开发遵循 NVIDIA 的 可信 AI 原则,优先考虑隐私、安全、透明度和减少不必要的偏见。
可信 AI 对于促进开发者社区内的创新和维护用户信任至关重要。NVIDIA 致力于安全且可信的 AI,符合白宫的自愿 AI 承诺和其他全球 AI 安全倡议。
开放的 Cosmos 平台包括旨在减少有害文本和图像的防护栏,并配备了一个工具来增强文本提示的准确性。在 NVIDIA API 目录上使用 Cosmos 自回归和扩散模型生成的视频包含隐形水印,以识别 AI 生成的内容,帮助减少错误信息和错误归因的可能性。
NVIDIA 鼓励开发者采用可信 AI 实践,并进一步增强其应用程序的防护栏和水印解决方案。
可用性
Cosmos WFM 现已通过 NVIDIA 的开放模型许可证在 Hugging Face 和 NVIDIA NGC 目录上提供。Cosmos 模型将很快作为完全优化的 NVIDIA NIM 微服务提供。
开发者可以通过 NVIDIA NeMo Curator 加速视频处理,并使用 NVIDIA NeMo 定制自己的世界模型。NVIDIA DGX Cloud 提供了一种快速简便的方式来部署这些模型,并通过 NVIDIA AI Enterprise 软件平台提供企业支持。
英伟达还宣布推出新的 NVIDIA Llama Nemotron 大语言模型 和 NVIDIA Cosmos Nemotron 视觉语言模型,开发者可用于医疗保健、金融服务、制造业等企业 AI 用例。
评论0