ComfyUI_HunyuanVideoFoley 是一个专为 HunyuanVideo-Foley 模型设计的 ComfyUI 自定义节点,通过 AI 实现从视频和文本描述生成高度逼真的音效(Foley 音频)。它将视觉内容与语义理解结合,为影视制作、短片创作和 AI 内容生成提供强大的自动化音频支持。
该插件采用模块化设计,兼顾灵活性与性能优化,适用于从入门到进阶的各类用户。

核心功能
- ✅ 文本-视频到音频合成:根据视频画面与文本提示,生成匹配场景的环境音、动作音等;
- ✅ 灵活提示控制:支持正向/负向提示词,精准引导音频风格;
- ✅ 多样本生成:单次推理最多输出 6 种不同音频变体,便于选择最佳结果;
- ✅ 参数可调:支持配置引导尺度(CFG)、推理步数、采样器、种子等扩散模型核心参数;
- ✅ 模型缓存与复用:支持模型持久化加载,避免重复加载耗时;
- ✅ 自动下载:模型首次使用时自动下载至
ComfyUI/models/foley/目录; - ✅ Torch 编译加速:集成
torch.compile,提升生成速度 20%-30%。
安装方法
- 克隆仓库到
custom_nodes目录:
cd ComfyUI/custom_nodes
git clone https://github.com/if-ai/ComfyUI_HunyuanVideoFoley.git
- 安装依赖:
cd ComfyUI_HunyuanVideoFoley
pip install -r requirements.txt
- (推荐)运行安装脚本:
python install.py
- 重启 ComfyUI,节点将自动加载。

模型获取方式
| 方式 | 说明 |
|---|---|
| 自动下载(推荐) | 首次运行节点时自动下载模型,路径为 ComfyUI/models/foley/,过程在控制台显示 |
| 手动下载 | 从 HuggingFace 下载模型,放置于 ComfyUI/models/foley/ 或 ./pretrained_models/,并确保配置文件位于 configs/hunyuanvideo-foley-xxl.yaml |
节点详解
1. HunyuanVideo-Foley 模型加载器 (FP8)
- 量化选项:
none:原始精度,显存占用高fp8_e5m2/fp8_e4m3fn:低显存模式,节省数 GB 显存,质量损失极小cpu_offload:将模型保留在 RAM,适合多模型并行场景
2. HunyuanVideo-Foley 依赖项加载器
加载辅助模型:VAE、文本编码器、视觉特征提取器。
3. HunyuanVideo-Foley Torch 编译
- 编译模式:
default:平衡速度与编译时间reduce-overhead:适合短音频,减少运行开销max-autotune:最长编译时间,但性能最优
- 后端:默认
inductor,适用于大多数用户
4. HunyuanVideo-Foley 生成器(高级)
- 输入:
- 视频/图像序列
- 文本提示 & 负向提示
- 引导尺度、步数、种子、样本数(1-6)
- 控制开关:
启用:临时禁用节点静音音频:失败时输出静音音频,防止下游中断
内存管理策略
| 选项 | 作用 | 推荐场景 |
|---|---|---|
cpu_offload | 生成后将模型移至 CPU 内存 | 计划后续复用模型,节省显存 |
memory_efficient | 完全卸载模型(仅当模型由生成器加载时) | 工作流程结束,释放全部内存 |
性能调优建议
关键参数:feature_extraction_batch_size
视觉特征提取是显存瓶颈。推荐批次大小如下:
| 显存 | 分辨率 | 推荐批次大小 | 说明 |
|---|---|---|---|
| ≤ 8 GB | 480p | 4–8 | 从 4 开始测试 |
| 720p | 2–4 | 720p 对低显存压力大 | |
| 12–16 GB | 480p | 16–32 | 16 起步,可增加 |
| 720p | 8–16 | 平衡速度与显存 | |
| ≥ 24 GB | 480p | 32–64 | 可最大化批次 |
| 720p | 16–32 | 32 可稳定运行 |
启用 enable_profiling 可在控制台查看显存与耗时,帮助找到最优配置。
使用限制
⚠️ 硬性限制:
- 最大帧数:450 帧
- 最大时长(按帧数):
- 30fps → 15 秒
- 24fps → 18.75 秒
- 15fps → 30 秒
📌 建议:视频长度控制在 ≤15 秒 以获得最佳效果。
长视频处理方案
对于超过 15 秒的视频,可采用以下策略:
- 降低帧率:使用 15fps 以延长可处理时长;
- 分段生成:将视频切分为 ≤15 秒片段分别处理;
- 音频合并:在后期工具(如 Audition、DaVinci Resolve)中拼接音频。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















