ComfyUI现已支持英伟达Cosmos:迄今为止最好的开源图生视频模型?

英伟达在前段时间推出Cosmos 平台,该平台包含先进的世界基础生成模型、高级分词器、防护栏和加速视频处理管道,旨在推动自动驾驶汽车(AV)和机器人等物理 AI 系统的发展。虽然被称为“世界模型”,但实际上它现阶段就完全是个视频生成模型,目前ComfyUI已经宣布原生支持该模型(7B 和 14B 两个版本),你需要将ComfyUI升级到最新版(3.12版)。(相关:英伟达推出世界基础模型平台NVIDIA Cosmos :帮助物理 AI 开发人员更好、更快地构建物理 AI 系统

推荐模型与硬件要求

Cosmos拥有7B 和 14B 两个版本的文生视频和图生视频模型,对于大多数用户来说,推荐使用7B模型。这款模型可以在拥有24GB显存的显卡上以全16位精度运行而无需卸载数据,同样也能够在12GB显存的显卡上通过ComfyUI提供的自动模型卸载功能来运行。

新采样器

此次更新还引入了一个新的采样器——res_multistep,该采样器已集成在你常用的采样器节点中。这是英伟达在其Cosmos实现中采用的采样方法,可以与ComfyUI支持的所有模型兼容,并且据说在其他视频模型上也有出色的表现。

性能优势

  1. 高效的 VAE:其 VAE 是目前计算/内存效率最高的视频 VAE。非常高效,你可以在 12GB 显存的显卡上编码/解码 1280x704 的 121 帧视频,而无需任何分块技巧,同时保持非常高的质量。这使得它的内存效率比混元视频模型 VAE 高出约 50 倍。
  2. 非蒸馏模型:负向提示词将起作用,并且应该比像混元视频模型这样的蒸馏模型更容易训练。
  3. 图像到视频效果出色:图像到视频模型的行为类似于修复模型,因此你可以从最后一帧而不是第一帧生成视频,或者在两张图像之间生成视频。
  4. 运动幅度:如果生成了所需的 121 帧,该模型总是会生成有运动幅度的视频。官方测试从未见过它生成没有运动幅度的视频。(PS:LTX模型经常会出现生成视频无运动)

    一些缺点

    1. 帧数限制:该模型非常喜欢 121 帧,如果生成更少或更多的帧,它就会开始出现问题。
    2. 分辨率限制:模型可以处理的最低分辨率为 704x704。
    3. 长提示需求:需要长提示词。如果提示词太短,模型将不会遵循提示词。
    4. 速度较慢:在 4090 上生成 1280x704 的 121 帧视频需要超过 10 分钟。本人的4070显卡则需要36分钟。

    使用指南

    需要下载的文件

    1、文本编码器和 VAE

    注意oldt5_xxl 与 flux 和其他模型中使用的 t5xxl 不同。oldt5_xxlt5xxl 1.0 版本,而 flux 和其他模型中使用的是 t5xxl 1.1 版本。

    2、视频模型

    这些文件放在:ComfyUI/models/diffusion_models

    注意:“Text to World” 表示文本到视频,“Video to World” 表示图像/视频到视频。

    文生视频

    这个工作流程需要你可以在上面下载的 7B 文本转视频模型

    图生视频

    这个工作流程需要你可以从上面下载的 7B 图像到视频模型。这个模型主要在现实视频上进行训练,但在这个例子中,你可以看到它在动漫上也表现不错

    0

    评论0

    没有账号?注册  忘记密码?