ComfyUI-QuantOps:支持 INT8 块量化模型加载,降低显存占用提升推理效率

插件23小时前发布 小马良
8 0

在本地运行Qwen Image 、WAN2.2等大模型时,显存占用高、推理速度慢是常见瓶颈。模型量化(如 INT8、FP8)可显著降低内存需求并提升推理吞吐,但 ComfyUI 原生对非标准量化格式支持有限。

ComfyUI-QuantOps 是一个扩展插件,专为 ComfyUI 设计,支持加载由 convert_to_quant 工具生成的量化模型,尤其完善支持 INT8 块级量化(Block-wise),让普通用户也能在消费级显卡上高效运行压缩模型。

ComfyUI-QuantOps:支持 INT8 块量化模型加载,降低显存占用提升推理效率

当前支持的量化格式

量化类型布局方式状态
INT8(块级)BlockWiseINT8Layout✅ 已支持
FP8(张量级)TensorCoreFP8Layout✅ ComfyUI 内置,无需额外插件
FP8(行级 / 块级)RowWiseFP8Layout / BlockWiseFP8Layout🚧 开发中

💡 重点:INT8 块量化是目前最实用的方案——相比 FP8,它兼容性更好,且在多数 GPU 上无需特殊硬件支持(如 NVIDIA H100 的 FP8 Tensor Core)。

核心功能

  1. QuantizedModelLoader 节点
    可直接加载 .safetensors 格式的 INT8 量化主模型(如 SDXL、SD1.5),无需修改工作流。
  2. Load CLIP (Quantized) 节点
    支持量化后的文本编码器(如 T5-XXL、CLIP),适用于 SD3、FLUX 等多模态架构,进一步节省显存。
  3. GPU 加速(可选)
    安装 Triton(Linux)或 triton-windows 后,INT8 推理可获得额外性能提升。

使用流程(以 INT8 为例)

  1. 量化模型
    使用 convert_to_quant 工具对原始模型进行块级 INT8 量化:

    convert_to_quant -i model.safetensors --int8 --comfy_quant --simple --block_size 128
    
  2. 放置模型文件
    • 主模型 → ComfyUI/models/checkpoints/
    • 文本编码器 → ComfyUI/models/text_encoders/
  3. 在 ComfyUI 中加载
    • 主模型:使用 QuantizedModelLoader 节点
    • 文本编码器:使用 Load CLIP (Quantized) 节点,并选择对应类型(如 sd3flux

实际收益

  • 显存占用降低 30%~50%:INT8 模型体积约为原 FP16 模型的一半
  • 推理速度提升:整数运算在多数 GPU 上比浮点更快
  • 兼容现有工作流:只需替换模型加载节点,无需重构流程

⚠️ 注意:量化可能轻微影响生成质量,建议在“速度快 + 质量可接受”之间权衡。对细节要求极高的场景(如商业印刷)仍推荐使用 FP16 模型。

安装方式

cd ComfyUI/custom_nodes
git clone https://github.com/silveroxides/ComfyUI-QuantOps.git

(可选)启用 Triton 加速:

# 激活 ComfyUI 虚拟环境后执行
pip install triton          # Linux
pip install triton-windows  # Windows
© 版权声明

相关文章

暂无评论

none
暂无评论...