SDNQ 量化:跨平台模型压缩方案,显著降低显存占用并提升推理速度

新技术3天前发布 小马良
4 0

SDNQ(Stable Diffusion Next Quantization) 是 SD.Next 中集成的一套全平台量化系统,支持 19 种整数量化 与 69 种浮点量化 方案,可在 英伟达、AMD、英特尔显卡及 CPU 上运行。其核心目标是:在几乎不损失生成质量的前提下,大幅减少模型内存占用,并加速推理过程

典型场景下,使用 INT8 量化 可将模型显存占用降低 50%,同时保持与原始 FP16 模型相近的输出质量。

SDNQ 量化:跨平台模型压缩方案,显著降低显存占用并提升推理速度

核心特性

  • 广泛的量化支持
    • 整数类型:1~8 位的 int / uint
    • 浮点类型:1~8 位的 float 及其变体(如 float8_e4m3fn
  • 模型兼容性强:支持 UNet、文本编码器(TE)、VAE、ControlNet、LoRA、DiT、Flux 等主流架构
  • 即时量化:模型加载时自动量化(“pre 模式”),系统内存压力更低
  • 量化矩阵乘法(Quantized MatMul):在支持 INT8/FP8 的显卡上启用后,推理速度显著提升
  • SVD 量化支持:提升低比特(如 4bit)下的质量,并使 LoRA 与 4bit 模型兼容
  • 混合精度控制:可通过模块白名单或 JSON 配置,对特定层保留更高精度

推荐配置(平衡速度与质量)

量化类型显存节省质量损失推荐场景
INT8~50%极低通用首选,兼容性最好
INT6~63%轻微追求更高压缩率
UINT4~72%中等显存极度受限时使用
float8_e4m3fn~50%接近 INT6支持 FP8 的新显卡(如 RTX 40 系列)

注意:VAE 通常不建议量化,否则易出现黑图。若必须使用,请搭配 FP16 Fixed VAE 并关闭 VAE Upcast

关键选项说明

1. 量化目标(Quantization enabled)

  • Model:量化主扩散模型(必选)
  • TE:量化文本编码器(推荐)
  • LLM:用于提示增强等 LLM 集成场景
  • Control / VAE:按需启用,VAE 谨慎使用

2. 量化模式(Quantization mode)

  • Pre:加载时量化,节省系统 RAM,支持 DiT/Flux 视频模型
  • Post:加载后量化,兼容旧版 SDXL UNet
  • Auto:自动选择(默认)

3. 量化矩阵乘法(Use Quantized MatMul)

启用后可大幅提升推理速度,但需硬件支持:

显卡厂商INT8 支持FP8 支持
英伟达Turing (RTX 20) 及以上Ada (RTX 40) 及以上
AMDRDNA2 (RX 6000) 及以上MI300X / RDNA4 (RX 9000)
IntelAlchemist (Arc A) 及以上❌ 不支持

在消费级 英伟达显卡 上,INT8 矩阵乘法通常比 FP8 更快,推荐优先使用 int8

4. Triton 优化

  • 作用:通过 torch.compile 加速反量化过程
  • 支持情况
    • Linux英伟达/AMD/英特尔均开箱即用
    • Windows
      • 英伟达/英特尔:需手动安装(参考 Wiki)
      • AMD:实验性支持,需 ZLUDA 兼容

启用 Dequantize using torch.compile 可显著提升性能(需重启 WebUI 生效)。

高级功能

  • SVD 量化
    启用后可在低比特下保持更高质量,并支持 4bit + LoRA 组合。但结果具有非确定性(每次量化略有差异)。
  • 卷积层量化
    可进一步节省显存,但可能降低细节表现,适用于对速度要求高于画质的场景。
  • 混合精度配置
    通过 Modules dtype dict,可为关键模块(如时间嵌入层)指定更高精度(如 minimum_6bit),实现质量-性能平衡。
  • 显卡量化加速
    启用 Quantize using GPU 可在弱 CPU 机器上加快量化过程,但需注意设备映射设置对数据流向的影响。

使用步骤

  1. 进入 Settings → Quantization Settings
  2. 启用 Model 和 TE 量化
  3. 选择量化类型(推荐 int8
  4. 如硬件支持,勾选 Use Quantized MatMul 和 Dequantize using torch.compile
  5. 重新加载模型(若已加载)

量化设置仅对后续加载的模型生效,无需重新启动整个应用。

© 版权声明

相关文章

暂无评论

none
暂无评论...