在 ComfyUI 中使用英伟达物理世界基础模型Cosmos-Predict2 实现文生图与视频生成指南

312 0

Cosmos-Predict2 是由英伟达推出的新一代物理世界基础模型，专为物理 AI 场景下的高质量视觉生成与预测任务设计。该模型具备高度的物理准确性、环境交互能力以及细节还原度，能够真实模拟复杂的动态场景与物理现象。

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

它支持多种生成方式，包括文本到图像（Text-to-Image）和视频到世界（Video-to-World），可广泛应用于工业仿真、自动驾驶、城市规划、科学研究等多个领域，是连接智能视觉与现实世界的重要工具。

模型：https://huggingface.co/Comfy-Org/Cosmos_Predict2_repackaged
模型：https://www.modelscope.cn/models/Comfy-Org/Cosmos_Predict2_repackaged （国内用户请从此链接下载）
GGUF版模型：https://huggingface.co/city96/Cosmos-Predict2-14B-Text2Image-gguf
GGUF版模型：https://www.modelscope.cn/models/city96/Cosmos-Predict2-14B-Text2Image-gguf

本文将详细介绍如何在 ComfyUI 中配置并运行 Cosmos-Predict2 的文生图与视频生成工作流。此模型有2B和14B两个的版本，14B对于显存的要求更大，如果你显存不足，请使用GGUF版本模型。

对于 2B 版本模型，在实际运行时需要约 10GB 显存。

模型文件

其他权重文件请前往 Cosmos_Predict2_repackaged 页面下载。

工作流文件

请从官方的工作流加载对应的工作流 .json 文件。

将上述模型文件分别放置于 ComfyUI 的以下目录：

按照以下顺序确认节点设置：

在测试过程中，2B 版本大约占用 16GB 显存。

模型文件

同样建议访问 Cosmos_Predict2_repackaged 获取完整模型包。

与文生图一致，将模型文件放入对应的 ComfyUI 子目录中。

按序检查以下节点设置：

Load Diffusion Model 加载 cosmos_predict2_2B_video2world_480p_16fps.safetensors
Load CLIP 加载 oldt5_xxl_fp8_e4m3fn_scaled.safetensors
Load VAE 加载 wan_2.1_vae.safetensors
使用 Load Image 节点上传输入图像作为视频起始帧
（可选）按下快捷键 Ctrl/Cmd + B 启用尾帧输入控制
（可选）可在 ClipTextEncode 中修改提示词
（可选）调整 CosmosPredict2ImageToVideoLatent 中的分辨率与帧数参数
点击 Run 或使用快捷键执行生成
视频结果默认保存在 ComfyUI/output/，可通过 Save Video 节点进行预览或路径更改