ComfyUI-TLBVFI：将前沿视频帧插值集成进你的创作流程

275 0

随着生成式 AI 在视频处理领域的深入发展，高质量的视频帧插值（VFI） 已成为提升动态内容流畅度的关键技术。基于中央佛罗里达大学提出的 TLB-VFI 模型，社区开发者推出了 ComfyUI-TLBVFI ——一个专为 ComfyUI 设计的自定义节点包，让普通用户也能在可视化工作流中实现专业级的帧率提升。

GitHub：https://github.com/BobRandomNumber/ComfyUI-TLBVFI

该项目将复杂的扩散模型封装为易用节点，支持高精度中间帧生成，并可灵活控制插值密度，适用于动画增强、视频修复与创意视觉表达。

TLB-VFI：让视频帧插值更高效，时序信息与速度兼得

核心功能

功能	说明
高质量帧插值	基于 TLB-VFI 的潜在扩散架构，生成自然、清晰且时序一致的中间帧，尤其擅长处理大运动、遮挡与边缘细节。
多级倍速插值	支持通过 `times_to_interpolate` 参数实现 2×、4×、8× 甚至更高帧率扩展（每对原始帧生成 1、3、7 帧）。
模块化集成	完全兼容 ComfyUI 工作流，可与图像加载、视频解码、保存等节点无缝衔接。
轻量高效推理	利用潜在空间建模，在保持高画质的同时降低计算开销，适合本地 GPU 环境运行。

🔧 安装步骤

请按顺序完成以下配置，确保节点正常运行。

方式一：通过 ComfyUI-Manager（推荐）

在 ComfyUI-Manager 的“Custom Nodes”标签页中搜索 ComfyUI-TLBVFI，点击安装即可。

方式二：手动安装

步骤 1：手动克隆

cd ComfyUI/custom_nodes/
git clone https://github.com/BobRandomNumber/ComfyUI-TLBVFI.git

提示：克隆后请勿重命名文件夹。

步骤 2：安装依赖

进入节点目录并安装所需 Python 包：

cd ComfyUI/custom_nodes/ComfyUI-TLBVFI/
pip install -r requirements.txt

步骤 3：下载预训练模型

模型文件仅需一个：vimeo_unet.pth

🔗 下载地址：https://huggingface.co/ucfzl/TLBVFI

该模型在 Vimeo90K 数据集上训练，专为通用场景优化，具备良好的泛化能力。

步骤 4：放置模型文件

将 vimeo_unet.pth 放置在 ComfyUI 的模型目录下：

ComfyUI/
└── models/
    └── interpolation/
        └── tlbvfi_models/           # 可选：用于组织多个模型
            └── vimeo_unet.pth

✅ 节点会自动扫描 models/interpolation/ 目录及其子目录，无需手动指定绝对路径。

🛠️ 高级用法：若需使用自定义路径，可在 ComfyUI/extra_model_paths.yaml 中添加：
interpolation:
  - /your/custom/path/tlbvfi_models

步骤 5：重启 ComfyUI

重启后，节点将被加载。可在节点浏览器中搜索 TLBVFI 或在分类 frame_interpolation/TLBVFI 下找到它。

🚀 使用方法

加载视频或图像序列
- 使用 Load Video 节点读取视频并提取帧；
- 或使用 Load Image Batch 加载一组有序图像。
添加 TLBVFI 插值节点
- 拖入 TLBVFI Frame Interpolation 节点；
- 连接图像输出至 images 输入端口。
选择模型
- 在 model_name 下拉菜单中选择 vimeo_unet.pth；
- 若存放在子目录，显示为 tlbvfi_models/vimeo_unet.pth。
设置插值倍数
- times_to_interpolate = 1：每两帧间插入 1 帧 → 输出帧数 ×2
- times_to_interpolate = 2：插入 3 帧 → ×4
- times_to_interpolate = 3：插入 7 帧 → ×8
示例：输入 30fps 视频，设置为 2，则输出接近 120fps 的平滑序列。
查看或保存结果
- 将输出连接至 Preview Image 实时查看；
- 或通过 Save Image 保存为图像序列或编码为新视频。

🧠 背后原理：为什么效果更好？

ComfyUI-TLBVFI 的核心是 TLB-VFI 论文中的三大创新整合：

组件	作用
VQGAN 自编码器	将原始图像压缩至低维潜在空间，保留关键纹理与结构信息，减少后续计算负担。
布朗桥扩散（Brownian Bridge Diffusion）	在潜在空间中对时间轴建模，确保生成帧在运动轨迹上连续且稳定，避免跳变或抖动。
UNet 扩散主干	基于起始帧和结束帧的潜在表示，预测中间状态，实现高质量插值。

整个过程在潜在空间完成，兼顾效率与质量，是当前少有的能在消费级 GPU 上运行的高质量扩散 VFI 方案。