ComfyUI_HunyuanVideoFoley：为 HunyuanVideo-Foley 打造的ComfyUI自定义节点

427 0

ComfyUI_HunyuanVideoFoley 是一个专为 HunyuanVideo-Foley 模型设计的 ComfyUI 自定义节点，通过 AI 实现从视频和文本描述生成高度逼真的音效（Foley 音频）。它将视觉内容与语义理解结合，为影视制作、短片创作和 AI 内容生成提供强大的自动化音频支持。

GitHub：https://github.com/if-ai/ComfyUI_HunyuanVideoFoley

该插件采用模块化设计，兼顾灵活性与性能优化，适用于从入门到进阶的各类用户。

腾讯开源混元视频音效生成模型HunyuanVideo-Foley：端到端TV2A模型，为创作者打造高保真音视频体验

ComfyUI_HunyuanVideoFoley：为 HunyuanVideo-Foley 打造的ComfyUI自定义节点

核心功能

✅ 文本-视频到音频合成：根据视频画面与文本提示，生成匹配场景的环境音、动作音等；
✅ 灵活提示控制：支持正向/负向提示词，精准引导音频风格；
✅ 多样本生成：单次推理最多输出 6 种不同音频变体，便于选择最佳结果；
✅ 参数可调：支持配置引导尺度（CFG）、推理步数、采样器、种子等扩散模型核心参数；
✅ 模型缓存与复用：支持模型持久化加载，避免重复加载耗时；
✅ 自动下载：模型首次使用时自动下载至 ComfyUI/models/foley/ 目录；
✅ Torch 编译加速：集成 torch.compile，提升生成速度 20%-30%。

安装方法

克隆仓库到 custom_nodes 目录：

cd ComfyUI/custom_nodes
git clone https://github.com/if-ai/ComfyUI_HunyuanVideoFoley.git

安装依赖：

cd ComfyUI_HunyuanVideoFoley
pip install -r requirements.txt

（推荐）运行安装脚本：

python install.py

重启 ComfyUI，节点将自动加载。

模型获取方式

方式	说明
自动下载（推荐）	首次运行节点时自动下载模型，路径为 `ComfyUI/models/foley/`，过程在控制台显示
手动下载	从 HuggingFace 下载模型，放置于 `ComfyUI/models/foley/` 或 `./pretrained_models/`，并确保配置文件位于 `configs/hunyuanvideo-foley-xxl.yaml`

节点详解

1. HunyuanVideo-Foley 模型加载器 (FP8)

量化选项：
- none：原始精度，显存占用高
- fp8_e5m2 / fp8_e4m3fn：低显存模式，节省数 GB 显存，质量损失极小
- cpu_offload：将模型保留在 RAM，适合多模型并行场景

2. HunyuanVideo-Foley 依赖项加载器

加载辅助模型：VAE、文本编码器、视觉特征提取器。

3. HunyuanVideo-Foley Torch 编译

编译模式：
- default：平衡速度与编译时间
- reduce-overhead：适合短音频，减少运行开销
- max-autotune：最长编译时间，但性能最优
后端：默认 inductor，适用于大多数用户

4. HunyuanVideo-Foley 生成器（高级）

输入：
- 视频/图像序列
- 文本提示 & 负向提示
- 引导尺度、步数、种子、样本数（1-6）
控制开关：
- 启用：临时禁用节点
- 静音音频：失败时输出静音音频，防止下游中断

内存管理策略

选项	作用	推荐场景
`cpu_offload`	生成后将模型移至 CPU 内存	计划后续复用模型，节省显存
`memory_efficient`	完全卸载模型（仅当模型由生成器加载时）	工作流程结束，释放全部内存

性能调优建议

关键参数：feature_extraction_batch_size

视觉特征提取是显存瓶颈。推荐批次大小如下：

显存	分辨率	推荐批次大小	说明
≤ 8 GB	480p	4–8	从 4 开始测试
	720p	2–4	720p 对低显存压力大
12–16 GB	480p	16–32	16 起步，可增加
	720p	8–16	平衡速度与显存
≥ 24 GB	480p	32–64	可最大化批次
	720p	16–32	32 可稳定运行