ComfyUI_HunyuanVideoFoley:为 HunyuanVideo-Foley 打造的ComfyUI自定义节点

插件3个月前更新 小马良
242 0

ComfyUI_HunyuanVideoFoley 是一个专为 HunyuanVideo-Foley 模型设计的 ComfyUI 自定义节点,通过 AI 实现从视频和文本描述生成高度逼真的音效(Foley 音频)。它将视觉内容与语义理解结合,为影视制作、短片创作和 AI 内容生成提供强大的自动化音频支持。

该插件采用模块化设计,兼顾灵活性与性能优化,适用于从入门到进阶的各类用户。

腾讯开源混元视频音效生成模型HunyuanVideo-Foley:端到端TV2A模型,为创作者打造高保真音视频体验

ComfyUI_HunyuanVideoFoley:为 HunyuanVideo-Foley 打造的ComfyUI自定义节点

核心功能

  • ✅ 文本-视频到音频合成:根据视频画面与文本提示,生成匹配场景的环境音、动作音等;
  • ✅ 灵活提示控制:支持正向/负向提示词,精准引导音频风格;
  • ✅ 多样本生成:单次推理最多输出 6 种不同音频变体,便于选择最佳结果;
  • ✅ 参数可调:支持配置引导尺度(CFG)、推理步数、采样器、种子等扩散模型核心参数;
  • ✅ 模型缓存与复用:支持模型持久化加载,避免重复加载耗时;
  • ✅ 自动下载:模型首次使用时自动下载至 ComfyUI/models/foley/ 目录;
  • ✅ Torch 编译加速:集成 torch.compile,提升生成速度 20%-30%。

安装方法

  1. 克隆仓库到 custom_nodes 目录:
cd ComfyUI/custom_nodes
git clone https://github.com/if-ai/ComfyUI_HunyuanVideoFoley.git
  1. 安装依赖:
cd ComfyUI_HunyuanVideoFoley
pip install -r requirements.txt
  1. (推荐)运行安装脚本:
python install.py
  1. 重启 ComfyUI,节点将自动加载。
ComfyUI_HunyuanVideoFoley:为 HunyuanVideo-Foley 打造的ComfyUI自定义节点

模型获取方式

方式说明
自动下载(推荐)首次运行节点时自动下载模型,路径为 ComfyUI/models/foley/,过程在控制台显示
手动下载从 HuggingFace 下载模型,放置于 ComfyUI/models/foley/ 或 ./pretrained_models/,并确保配置文件位于 configs/hunyuanvideo-foley-xxl.yaml

节点详解

1. HunyuanVideo-Foley 模型加载器 (FP8)

  • 量化选项
    • none:原始精度,显存占用高
    • fp8_e5m2 / fp8_e4m3fn:低显存模式,节省数 GB 显存,质量损失极小
    • cpu_offload:将模型保留在 RAM,适合多模型并行场景

2. HunyuanVideo-Foley 依赖项加载器

加载辅助模型:VAE、文本编码器、视觉特征提取器。

3. HunyuanVideo-Foley Torch 编译

  • 编译模式
    • default:平衡速度与编译时间
    • reduce-overhead:适合短音频,减少运行开销
    • max-autotune:最长编译时间,但性能最优
  • 后端:默认 inductor,适用于大多数用户

4. HunyuanVideo-Foley 生成器(高级)

  • 输入
    • 视频/图像序列
    • 文本提示 & 负向提示
    • 引导尺度、步数、种子、样本数(1-6)
  • 控制开关
    • 启用:临时禁用节点
    • 静音音频:失败时输出静音音频,防止下游中断

内存管理策略

选项作用推荐场景
cpu_offload生成后将模型移至 CPU 内存计划后续复用模型,节省显存
memory_efficient完全卸载模型(仅当模型由生成器加载时)工作流程结束,释放全部内存

性能调优建议

关键参数:feature_extraction_batch_size

视觉特征提取是显存瓶颈。推荐批次大小如下:

显存分辨率推荐批次大小说明
≤ 8 GB480p4–8从 4 开始测试
720p2–4720p 对低显存压力大
12–16 GB480p16–3216 起步,可增加
720p8–16平衡速度与显存
≥ 24 GB480p32–64可最大化批次
720p16–3232 可稳定运行

启用 enable_profiling 可在控制台查看显存与耗时,帮助找到最优配置。

使用限制

⚠️ 硬性限制

  • 最大帧数:450 帧
  • 最大时长(按帧数):
    • 30fps → 15 秒
    • 24fps → 18.75 秒
    • 15fps → 30 秒

📌 建议:视频长度控制在 ≤15 秒 以获得最佳效果。

长视频处理方案

对于超过 15 秒的视频,可采用以下策略:

  1. 降低帧率:使用 15fps 以延长可处理时长;
  2. 分段生成:将视频切分为 ≤15 秒片段分别处理;
  3. 音频合并:在后期工具(如 Audition、DaVinci Resolve)中拼接音频。
© 版权声明

相关文章

暂无评论

none
暂无评论...