Kandinsky 5 视频生成落地 ComfyUI！T2V/I2V 工作流一键加载，12GB GPU 可运行

194 0

Kandinsky 5 系列已正式适配 ComfyUI，官方提供完整的视频生成工作流，支持文本生视频（T2V）和图像生视频（I2V）双模式。无论是想快速体验 5-10 秒短视频生成，还是需要精细化调整参数适配创作需求，都能通过 ComfyUI 可视化操作实现，搭配 12GB 及以上显存 GPU 即可流畅运行，新手也能轻松上手。

GitHub：https://github.com/kandinskylab/kandinsky-5/blob/main/comfyui/README.md
模型：https://www.modelscope.cn/organization/kandinskylab
网盘下载：https://pan.quark.cn/s/0bbf25e6f76e 提取码：LzY6

核心优势：ComfyUI + Kandinsky 5 为何值得试？

工作流现成可用：官方提供预配置的 T2V/I2V 工作流文件，无需手动搭建节点，一键加载即可启动生成；
功能灵活拓展：支持风格参考图接入、多参数精细化调整，还能复用 I2V 模型权重实现 T2V 生成，满足多样化创作需求；
硬件门槛友好：延续 Kandinsky 5 Lite 系列的轻量化优势，12GB 显存 GPU 即可运行，24GB 显存体验更流畅；
可视化操作便捷：借助 ComfyUI 拖拽式节点编辑，无需复杂代码，参数调整直观易懂，小白也能快速上手。

完整安装配置教程：从部署到生成一步到位

环境准备

基础要求：已安装 ComfyUI（推荐最新版本）、Python 3.8+、CUDA 支持的 GPU（12GB 显存及以上，推荐 24GB 以支持更高分辨率）；
核心依赖：通过官方脚本自动安装，无需手动适配复杂依赖包。

安装 Kandinsky 5 自定义节点

第一步：进入 ComfyUI 的 custom_nodes 目录，克隆官方节点仓库（需提前安装 Git）：

cd ComfyUI/custom_nodes
git clone https://github.com/kandinskylab/kandinsky-5.git kandinsky
cd kandinsky
pip install -r requirements.txt

等待依赖包安装完成，节点部署即完成。

加载官方预设工作流

启动 ComfyUI（默认访问地址：http://127.0.0.1:8188）；
点击界面右上角的「Load」按钮，在弹出的文件选择框中找到对应工作流：
- 文本生视频（T2V）：选择 kandinsky5_lite_T2V.json；
- 图像生视频（I2V）：选择 kandinsky5_lite_I2V.json；
工作流将自动加载到画布中，节点已预设基础参数，无需额外调整即可初步使用。

Kandinsky 5 视频生成落地 ComfyUI！T2V/I2V 工作流一键加载，12GB GPU 可运行

下载并部署模型权重

这是关键步骤！需先下载模型文件并放到正确目录：

进入刚才克隆的 kandinsky 节点目录，运行下载脚本：

python download_models.py

脚本会自动下载所有必需的模型（包括扩散模型、文本编码器、VAE 等），默认保存到 ./weights 目录；

手动将下载后的模型按以下结构移动到 ComfyUI 对应目录（确保路径正确，否则模型无法加载）：

ComfyUI/
├── models/
│   ├── text_encoders/          # 放入下载的 text_encoder 和 text_encoder2 相关文件
│   ├── diffusion_models/       # 放入所有 kandinsky5lite_*2v*_*.safetensors 格式模型
│   └── vae/                    # 放入下载的 VAE 模型文件

关键参数配置（新手必看）

加载工作流后，可根据需求调整核心参数，推荐值已标注，直接复用更省心：

参数名称	功能说明	新手推荐值
Prompt	视频内容描述（越详细，生成越精准）	例如：“阳光照射下的森林湖泊，落叶缓缓飘落，镜头缓慢推进，高清画质”
Negative Prompt	排除不想要的元素（如模糊、畸变、水印等）	“模糊，扭曲，低画质，水印，文字错误，比例失调”
Width/Height/Length	视频宽/高/帧数（Length 决定时长）	5秒视频：768x512x121 10秒视频：768x512x241（10秒模型宽高需被128整除） I2V模式：长宽比贴近原图，面积≈768×512
Steps	生成步数（步数越多越精细，但耗时更长）	普通版模型：50步蒸馏16步版模型：16步（快速生成）
CFG Scale	提示词引导强度（数值越高越贴合描述）	蒸馏16步/noCFG 版：1.0 SFT/预训练版：5.0
Scheduler Scale	噪声调度器强度（影响视频流畅度）	5秒模型：5.0 10秒模型/I2V模式：10.0

开始生成视频

参数调整完成后，点击 ComfyUI 界面右上角的「Queue Prompt」按钮，等待生成完成即可。生成的视频文件会默认保存到 ComfyUI 的 output 目录，支持直接预览和导出。

实用小技巧：让生成效果更上一层楼

风格迁移小技巧：T2V 模式下，将风格参考图接入「extend_prompt」节点，生成的视频会自动继承参考图的色调、质感和风格，适合打造系列化内容；
I2V 复用技巧：I2V 模型权重可直接用于 T2V 模式，只需在工作流中关闭图像输入节点，仅保留文本提示，即可实现“文本+图像风格”双引导生成；
分辨率优化：若 GPU 显存充足（24GB 及以上），可适当提高 Width/Height（如 1024x768），生成更高清的视频；显存不足时，可降低分辨率或启用 ComfyUI 内存卸载功能；
提示词优化：描述中加入“镜头运动”（如缓慢推近、环绕拍摄）、“光照效果”（如柔光、侧光）、“材质细节”（如金属反光、布料纹理），生成效果会更专业。

常见问题排查

模型加载失败：检查模型路径是否正确，确保 diffusion_models、text_encoders、vae 目录下的文件对应无误；
显存不足报错：降低视频分辨率（如 640x480）、减少生成步数（如 30 步），或启用 ComfyUI 的 lowVRAM 模式；
生成速度过慢：切换为蒸馏16步版模型、降低分辨率，或升级 GPU 显存（推荐 24GB 及以上）；
视频卡顿/不流畅：提高 Scheduler Scale 数值（如 10.0），或增加生成步数，确保 Length 参数与视频时长匹配（5秒≈121帧，10秒≈241帧）。