ComfyUI-TLBVFI:将前沿视频帧插值集成进你的创作流程

插件4个月前发布 小马良
235 0

随着生成式 AI 在视频处理领域的深入发展,高质量的视频帧插值(VFI) 已成为提升动态内容流畅度的关键技术。基于中央佛罗里达大学提出的 TLB-VFI 模型,社区开发者推出了 ComfyUI-TLBVFI ——一个专为 ComfyUI 设计的自定义节点包,让普通用户也能在可视化工作流中实现专业级的帧率提升。

该项目将复杂的扩散模型封装为易用节点,支持高精度中间帧生成,并可灵活控制插值密度,适用于动画增强、视频修复与创意视觉表达。

TLB-VFI:让视频帧插值更高效,时序信息与速度兼得

ComfyUI-TLBVFI:将前沿视频帧插值集成进你的创作流程

核心功能

功能说明
高质量帧插值基于 TLB-VFI 的潜在扩散架构,生成自然、清晰且时序一致的中间帧,尤其擅长处理大运动、遮挡与边缘细节。
多级倍速插值支持通过 times_to_interpolate 参数实现 2×、4×、8× 甚至更高帧率扩展(每对原始帧生成 1、3、7 帧)。
模块化集成完全兼容 ComfyUI 工作流,可与图像加载、视频解码、保存等节点无缝衔接。
轻量高效推理利用潜在空间建模,在保持高画质的同时降低计算开销,适合本地 GPU 环境运行。

🔧 安装步骤

请按顺序完成以下配置,确保节点正常运行。

方式一:通过 ComfyUI-Manager(推荐)

在 ComfyUI-Manager 的“Custom Nodes”标签页中搜索 ComfyUI-TLBVFI,点击安装即可。

方式二:手动安装

步骤 1:手动克隆

cd ComfyUI/custom_nodes/
git clone https://github.com/BobRandomNumber/ComfyUI-TLBVFI.git

提示:克隆后请勿重命名文件夹。

步骤 2:安装依赖

进入节点目录并安装所需 Python 包:

cd ComfyUI/custom_nodes/ComfyUI-TLBVFI/
pip install -r requirements.txt

步骤 3:下载预训练模型

模型文件仅需一个:vimeo_unet.pth

🔗 下载地址:https://huggingface.co/ucfzl/TLBVFI

该模型在 Vimeo90K 数据集上训练,专为通用场景优化,具备良好的泛化能力。

步骤 4:放置模型文件

将 vimeo_unet.pth 放置在 ComfyUI 的模型目录下:

ComfyUI/
└── models/
    └── interpolation/
        └── tlbvfi_models/           # 可选:用于组织多个模型
            └── vimeo_unet.pth

✅ 节点会自动扫描 models/interpolation/ 目录及其子目录,无需手动指定绝对路径。

🛠️ 高级用法:若需使用自定义路径,可在 ComfyUI/extra_model_paths.yaml 中添加:

interpolation:
  - /your/custom/path/tlbvfi_models

步骤 5:重启 ComfyUI

重启后,节点将被加载。可在节点浏览器中搜索 TLBVFI 或在分类 frame_interpolation/TLBVFI 下找到它。

🚀 使用方法

  1. 加载视频或图像序列
    • 使用 Load Video 节点读取视频并提取帧;
    • 或使用 Load Image Batch 加载一组有序图像。
  2. 添加 TLBVFI 插值节点
    • 拖入 TLBVFI Frame Interpolation 节点;
    • 连接图像输出至 images 输入端口。
  3. 选择模型
    • 在 model_name 下拉菜单中选择 vimeo_unet.pth
    • 若存放在子目录,显示为 tlbvfi_models/vimeo_unet.pth
  4. 设置插值倍数
    • times_to_interpolate = 1:每两帧间插入 1 帧 → 输出帧数 ×2
    • times_to_interpolate = 2:插入 3 帧 → ×4
    • times_to_interpolate = 3:插入 7 帧 → ×8

    示例:输入 30fps 视频,设置为 2,则输出接近 120fps 的平滑序列。

  5. 查看或保存结果
    • 将输出连接至 Preview Image 实时查看;
    • 或通过 Save Image 保存为图像序列或编码为新视频。

🧠 背后原理:为什么效果更好?

ComfyUI-TLBVFI 的核心是 TLB-VFI 论文中的三大创新整合:

组件作用
VQGAN 自编码器将原始图像压缩至低维潜在空间,保留关键纹理与结构信息,减少后续计算负担。
布朗桥扩散(Brownian Bridge Diffusion)在潜在空间中对时间轴建模,确保生成帧在运动轨迹上连续且稳定,避免跳变或抖动。
UNet 扩散主干基于起始帧和结束帧的潜在表示,预测中间状态,实现高质量插值。

整个过程在潜在空间完成,兼顾效率与质量,是当前少有的能在消费级 GPU 上运行的高质量扩散 VFI 方案。

注意事项与建议

  • 显存要求:建议至少 6GB 显存(输入分辨率 ≤ 720p);
  • 性能提示:插值倍数越高,推理时间呈指数增长,请根据硬件合理设置;
  • 输入顺序:确保图像按时间顺序输入,否则会导致运动错乱;
  • 边界处理:首尾帧无法插值,输出序列长度 = (原始帧数 - 1) × (插值倍数对应的新帧数) + 1。
© 版权声明

相关文章

暂无评论

none
暂无评论...