秒速出图！Nunchaku无损加速Flux生图，支持多LoRA和ControlNet

1,641 0

几个月前，我们曾介绍过 SVDQuant 技术 和其在 ComfyUI 中的应用。然而，由于当时写的不够详细，许多用户在尝试安装和运行相关插件时遇到了困难。如今，官方已经将 Nunchaku 的 ComfyUI 节点 独立出来，并提供了详细的安装和使用教程。本文将为大家梳理如何在 ComfyUI 上顺利安装和运行 Nunchaku 插件，并详细介绍关键节点的使用方法。

GitHub：https://github.com/mit-han-lab/ComfyUI-nunchaku

一、什么是 Nunchaku？

Nunchaku 是一个专为 4 位量化神经网络（SVDQuant） 设计的高效推理引擎，能够显著提升模型推理速度，同时降低显存占用。通过 Nunchaku，用户可以在 ComfyUI 中轻松加载和运行 SVDQuant 模型，也就是量化版的FLUX模型。

PS：本人使用的是B站UP主秋葉的ComfyUI整合包，如果你安装的是其他版本，也可以参考我的方法，差别不大。国内用户推荐使用秋葉ComfyUI整合包，更新及安装插件方便。

以下是详细的安装和配置步骤：

二、Nunchaku 安装方法

1. 安装前提

Python 版本：确保你的 Python 版本与 Nunchaku 的 wheel 包兼容（例如 Python 3.10）。
PyTorch 版本：
- 最低要求为 PyTorch >= 2.5。
- 如果你使用的是 英伟达50 系列显卡（Blackwell 架构），需要安装 PyTorch 2.7 或更高版本，使用FP4模型，其他显卡用户使用in4模型。
Visual Studio：确保已安装最新版 Visual Studio，用于支持底层编译需求。

可以通过以下方式检查当前环境：

打开 ComfyUI 启动器，点击“一键启动”，查看 Python 和 PyTorch 版本信息。

2. 下载对应的 Wheel 文件

前往 Hugging Face 或魔塔，根据你的 Python 和 PyTorch 版本选择合适的 Nunchaku wheel 文件。
将下载的 wheel 文件放置在 英文路径目录 下，推荐直接放入 ComfyUI 的 python 目录中（如 ComfyUI\python）。

PS：国内用户请从魔塔下载

Hugging Face ：https://huggingface.co/mit-han-lab/nunchaku
魔塔：https://modelscope.cn/models/Lmxyy1999/nunchaku

v0.3.0 Dev版本
GitHub：https://github.com/mit-han-lab/nunchaku/releases/tag/v0.3.0dev20250521
网盘：https://www.123865.com/s/hyQyTd-h2HDv 提取码:ZOPw

3. 安装 Wheel 文件

在 ComfyUI\python 目录下右键，选择“在终端中打开”

输入以下命令进行安装：

.\python.exe -m pip install 文件地址

注意：

替换 文件地址 为你下载的 wheel 文件的实际路径；右键点击 wheel 文件，复制文件地址
文件地址不要加双引号 ""，否则可能导致安装失败。

安装成功后，即可进入下一步。

三、安装 ComfyUI-nunchaku 插件

1. 使用 ComfyUI-Manager 安装

打开 ComfyUI-Manager，搜索 ComfyUI-nunchaku，点击安装即可。

2. 秋葉整合包用户

在秋葉整合包中，进入“安装新扩展”页面，搜索 ComfyUI-nunchaku，点击安装。

四、如何使用 Nunchaku 插件

1. 配置工作流

官方已在 custom_nodes\ComfyUI-nunchaku\workflows 目录下提供了示例工作流。
将工作流文件拖入 ComfyUI 即可快速加载。
如果缺少某些节点，可通过 ComfyUI-Manager 安装缺失的依赖。

2. 下载必要模型

所有 4 位量化模型均可从 Hugging Face 或魔塔下载。
下载后，将整个模型文件夹放入 models/diffusion_models 目录中。

Hugging Face：https://huggingface.co/collections/mit-han-lab/svdquant-67493c2c2e62a1fc6e93f45c
魔塔：https://modelscope.cn/collections/svdquant-468e8f780c2641

五、Nunchaku 关键节点详解

1. Nunchaku Flux DiT Loader

功能：用于加载 FLUX模型。

参数说明：
- model_path：指定模型文件夹名称。
- cache_threshold：控制First-Block Cache的容差，类似于WaveSpeed中的residual_diff_threshold。增加此值可以提高速度，但可能会降低质量。典型值为 0.12。将其设置为 0 将禁用该效果。
- attention：定义 attention 的实现方法. 您可以在flash-attention2或nunchaku-fp16之间进行选择。nunchaku-fp16在不影响精度的情况下大约比flash-attention2快1.2x倍。对于Turing架构的显卡(20系), 如果不支持flash-attention2，则必须使用 nunchaku-fp16。
  - flash-attention2：性能较高，但可能不支持所有硬件。
  - nunchaku-fp16：在不影响精度的情况下，比 flash-attention2 快约 1.2 倍。
- cpu_offload：启用 CPU 卸载以减少 GPU 显存占用。虽然这减少了GPU内存的使用，但它可能会减慢推理速度。
  - 设置为 auto 时，系统会自动检测 GPU 内存。若内存超过 14GiB，则禁用卸载；否则启用。
- device_id：指定使用的 GPU ID。
- data_type：定义去量子化张量的数据类型。
  - Turing 架构（20 系显卡）仅支持 float16。
- i2f_mode：针对 20 系显卡的 GEMM 实现模式，其他架构 GPU 可忽略。

2. Nunchaku FLUX LoRA Loader

功能：用于加载 SVDQuant FLUX 模型的 LoRA 模型

参数说明：
- 将 LoRA Checkpoints 文件放入 models/loras 目录中。
- lora_strength：控制 LoRA 模型的强度。
- 支持连接多个 LoRA 节点。
- 注：从0.2.0版本开始，不需要转换LoRA了。可以在加载器中加载原始的LoRA文件

3. Nunchaku Text Encoder Loader

功能：用于加载文本编码器。

参数说明：
- 对于 FLUX 模型，请使用以下文件：
  - text_encoder1：t5xxl_fp16.safetensors（或 FP8/GGUF 版本）。
  - text_encoder2：clip_l.safetensors。
- t5_min_length：设置 T5 文本嵌入的最小序列长度，推荐值为 512。
- use_4bit_t5：启用 4 位量化 T5 模型以节省显存。
- int4_model：指定 INT4 T5 模型的位置（仅在 use_4bit_t5 启用时使用）。