Nunchaku 正式发布 1.0:让  Qwen-Image 与 Qwen-Image-Edit 模型在低显存设备上跑起来

工作流3个月前发布 小马良
1,305 0

9月4日,Nunchaku 团队正式发布 v1.0.0 版本,标志着这一面向 4 位量化神经网络(SVDQuant) 的高性能推理引擎进入稳定可用阶段。

Nunchaku 专注于解决大模型在低显存设备上的部署难题,通过深度优化量化计算流程,在显著降低显存占用的同时,保持接近原始精度的推理速度。本次更新不仅完成核心架构升级,还首次正式支持 Qwen-Image 与 Qwen-Image-Edit 模型系列,为多模态应用提供了轻量化落地的新选择。

Nunchaku 正式发布 1.0:让  Qwen-Image 与 Qwen-Image-Edit 模型在低显存设备上跑起来

核心定位:为 SVDQuant 架构量身打造的推理引擎

Nunchaku 并非通用推理框架,而是专门为 SVDQuant(奇异值分解量化) 技术路径设计的专用引擎。其目标是:

  • 最大化 4-bit 量化模型的运行效率
  • 显著降低 Transformer 层显存占用
  • 提供稳定、可集成的生产级接口

相比传统推理方案,Nunchaku 在处理高度压缩的视觉-语言模型时展现出更强的兼容性与性能优势。

新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量

v1.0.0 主要更新亮点

✅ 1. 后端重构:从 C 到 Python,提升兼容性与易用性

此前版本基于 C 语言实现核心模块,虽然性能优异但集成复杂。v1.0.0 完成了向 Python 原生后端 的迁移:

  • 更易于与 PyTorch 生态集成
  • 支持更广泛的硬件平台和运行环境
  • 简化安装与调试流程,降低使用门槛

这一转变使 Nunchaku 更适合研究者和开发者快速实验与部署。

✅ 2. 支持异步 CPU 卸载,显存占用降至约 3 GiB

这是本次发布的最大亮点之一。

启用异步卸载功能后:

  • Qwen-Image 扩散模型仅需约 3 GiB 显存
  • 推理速度无明显损失
  • 可在消费级显卡(如 RTX 3060/4060)上流畅运行

该技术通过智能调度机制,将部分中间状态临时卸载至内存,在需要时再异步加载回 GPU,实现了“低显存 + 高性能”的平衡。

✅ 3. 正式支持 Qwen-Image 与 Qwen-Image-Edit

v1.0.0 开始原生支持通义实验室推出的两个关键多模态模型:

  • Qwen-Image:图文理解与生成基础模型
  • Qwen-Image-Edit:图像编辑专用模型

⚠️ 当前限制:暂不支持 LoRA 微调模型

尽管基础模型支持已完善,但目前 尚未支持 Qwen-Image 和 Qwen-Image-Edit 的 LoRA 模型

这意味着:

  • 用户无法直接加载社区微调的个性化Lora模型
  • 图像编辑任务中的精细控制能力受限
  • 实际应用场景(如定制化图像生成)仍有一定局限

团队表示将在后续版本中优先推进 LoRA 兼容性开发。

Nunchaku 安装方法

Nunchaku安装方法可参考《秒速出图!Nunchaku无损加速Flux生图,支持多LoRA和ControlNet》,根据自己的PythonPyTorch 版本选择适合自己的轮子文件。

下载轮子文件后,在 ComfyUI\python 目录下右键,选择“在终端中打开”,输入以下命令进行安装:

.\python.exe -m pip install 文件地址
Nunchaku 正式发布 1.0:让  Qwen-Image 与 Qwen-Image-Edit 模型在低显存设备上跑起来

nunchaku-qwen-image

Nunchaku 量化的 Qwen-Image 版本,专为从文本提示生成高质量图像而设计,在复杂文本渲染方面取得了进步。它针对高效推理进行了优化,同时保持最小的性能损失。

模型文件

模型名称量化方法步骤LoRA 强度适用 GPU备注
svdq-int4_r32-qwen-image.safetensorsSVDQuant INT432--非 Blackwell GPU(50 系列之前)-
svdq-int4_r128-qwen-image.safetensorsSVDQuant INT4128--非 Blackwell GPU(50 系列之前)质量更佳,但速度较慢
svdq-int4_r32-qwen-image-lightningv1.0-4steps.safetensorsSVDQuant INT43241.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-int4_r128-qwen-image-lightningv1.0-4steps.safetensorsSVDQuant INT412841.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-int4_r32-qwen-image-lightningv1.1-8steps.safetensorsSVDQuant INT43281.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Lightning-8steps-V1.1-bf16.safetensors 生成
svdq-int4_r128-qwen-image-lightningv1.1-8steps.safetensorsSVDQuant INT412881.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Lightning-8steps-V1.1-bf16.safetensors 生成
svdq-fp4_r32-qwen-image.safetensorsSVDQuant NVFP432--Blackwell GPU(50 系列)-
svdq-fp4_r128-qwen-image.safetensorsSVDQuant NVFP4128--Blackwell GPU(50 系列)质量更佳,但速度较慢
svdq-fp4_r32-qwen-image-lightningv1.0-4steps.safetensorsSVDQuant NVFP43241.0Blackwell GPU(50 系列)融合 Qwen-Image-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-fp4_r128-qwen-image-lightningv1.0-4steps.safetensorsSVDQuant NVFP412841.0Blackwell GPU(50 系列)融合 Qwen-Image-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-fp4_r32-qwen-image-lightningv1.1-8steps.safetensorsSVDQuant NVFP43281.0Blackwell GPU(50 系列)融合 Qwen-Image-Lightning-8steps-V1.1-bf16.safetensors 生成
svdq-fp4_r128-qwen-image-lightningv1.1-8steps.safetensorsSVDQuant NVFP412881.0Blackwell GPU(50 系列)融合 Qwen-Image-Lightning-8steps-V1.1-bf16.safetensors 生成

说明

  • 量化方法:SVDQuant INT4 和 SVDQuant NVFP4 是两种不同的量化方法,分别适用于不同的 GPU 架构。
  • :表示模型的压缩程度,秩越高,模型质量越好,但速度可能较慢。
  • 步骤:表示模型的推理步骤数,步骤数越多,模型的推理能力越强。
  • LoRA 强度:表示模型融合时使用的 LoRA(Low-Rank Adaptation)强度。
  • 适用 GPU:根据 GPU 架构的不同,选择合适的模型。
  • 备注:对模型的生成方式或特点进行补充说明。

使用方法

custom_nodes\ComfyUI-nunchaku\example_workflows目录下,将nunchaku-qwen-image工作流拖入ComfyUI即可使用。

Nunchaku 正式发布 1.0:让  Qwen-Image 与 Qwen-Image-Edit 模型在低显存设备上跑起来

nunchaku-qwen-image-edit

Qwen-Image-Edit的 Nunchaku 量化版本。它针对高效的推理进行了优化,同时保持了最小的性能损失。

模型文件

模型名称量化方法步骤LoRA 强度适用 GPU备注
svdq-int4_r32-qwen-image-edit.safetensorsSVDQuant INT432--非 Blackwell GPU(50 系列之前)-
svdq-int4_r128-qwen-image-edit.safetensorsSVDQuant INT4128--非 Blackwell GPU(50 系列之前)质量更好,但速度较慢
svdq-int4_r32-qwen-image-edit-lightningv1.0-4steps.safetensorsSVDQuant INT43241.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Edit-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-int4_r128-qwen-image-edit-lightningv1.0-4steps.safetensorsSVDQuant INT412841.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Edit-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-int4_r32-qwen-image-edit-lightningv1.0-8steps.safetensorsSVDQuant INT43281.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Edit-Lightning-8steps-V1.0-bf16.safetensors 生成
svdq-int4_r128-qwen-image-edit-lightningv1.0-8steps.safetensorsSVDQuant INT412881.0非 Blackwell GPU(50 系列之前)融合 Qwen-Image-Edit-Lightning-8steps-V1.0-bf16.safetensors 生成
svdq-fp4_r32-qwen-image-edit.safetensorsSVDQuant NVFP432--Blackwell GPU(50 系列)-
svdq-fp4_r128-qwen-image-edit.safetensorsSVDQuant NVFP4128--Blackwell GPU(50 系列)质量更好,但速度较慢
svdq-fp4_r32-qwen-image-edit-lightningv1.0-4steps.safetensorsSVDQuant NVFP43241.0Blackwell GPU(50 系列)融合 Qwen-Image-Edit-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-fp4_r128-qwen-image-edit-lightningv1.0-4steps.safetensorsSVDQuant NVFP412841.0Blackwell GPU(50 系列)融合 Qwen-Image-Edit-Lightning-4steps-V1.0-bf16.safetensors 生成
svdq-fp4_r32-qwen-image-edit-lightningv1.0-8steps.safetensorsSVDQuant NVFP43281.0Blackwell GPU(50 系列)融合 Qwen-Image-Edit-Lightning-8steps-V1.0-bf16.safetensors 生成
svdq-fp4_r128-qwen-image-edit-lightningv1.0-8steps.safetensorsSVDQuant NVFP412881.0Blackwell GPU(50 系列)融合 Qwen-Image-Edit-Lightning-8steps-V1.0-bf16.safetensors 生成

说明

  • 量化方法:SVDQuant INT4 和 SVDQuant NVFP4 是两种不同的量化方法,分别适用于不同的 GPU 架构。
  • :表示模型的压缩程度,秩越高,模型质量越好,但速度可能较慢。
  • 步骤:表示模型的推理步骤数,步骤数越多,模型的推理能力越强。
  • LoRA 强度:表示模型融合时使用的 LoRA(Low-Rank Adaptation)强度。
  • 适用 GPU:根据 GPU 架构的不同,选择合适的模型。
  • 备注:对模型的生成方式或特点进行补充说明。

使用方法

custom_nodes\ComfyUI-nunchaku\example_workflows目录下,将nunchaku-qwen-image-edit工作流拖入ComfyUI即可使用。

Nunchaku 正式发布 1.0:让  Qwen-Image 与 Qwen-Image-Edit 模型在低显存设备上跑起来
© 版权声明

相关文章

暂无评论

none
暂无评论...