Qwen-Image 图像生成实操指南：三大ControlNet 方案从部署到运行，新手也能上手

工作流7个月前发布小马良

1,225 0

阿里巴巴通义千问团队发布的 Qwen-Image，是首个基于 MMDiT 架构的开源图像生成基础模型，参数规模达 20B，采用 Apache 2.0 许可证开放，支持高分辨率、多轮对话式图像生成。

Hugging Face：Qwen-Image-DiffSynth-ControlNets | Qwen-Image-InstantX-ControlNets
魔塔：Qwen-Image-DiffSynth-ControlNets | Qwen-Image-InstantX-ControlNets
comfyui_controlnet_aux插件：https://github.com/Fannovel16/comfyui_controlnet_aux

随着社区生态的发展，目前已涌现出多种 ControlNet 与 LoRA 控制方案，帮助用户实现对生成图像的结构化引导，如边缘、深度、姿态、线稿等控制。

本文将系统梳理当前主流的三种控制方式：

InstantX 统一 ControlNet
DiffSynth Model Patches（模型补丁）
DiffSynth Union LoRA

每种方案在兼容性、灵活性与部署方式上各有特点，适用于不同使用场景。

前置说明：Qwen-Image基础环境与核心概念

在开始具体工作流操作前，需先明确两个关键前提，避免后续部署出错：

基础环境：所有工作流均基于ComfyUI运行，请将ComfyUI升级到最新开发版（nightly），下载所需模型；
核心差异：三类ControlNet方案的本质不同——InstantX是“统一ControlNet模型”，DiffSynth是“模型补丁（Model Patch）”，Union是“控制型LoRA”，对应的文件存放路径、预处理逻辑均有区别，需重点注意模型保存位置（后文会逐一标注）。
工作流：所需工作流均可在工作流模板中获取，点击即可加载。

Qwen-Image 图像生成实操指南：三大ControlNet 方案从部署到运行，新手也能上手

方案概览：三种控制方式对比

方案	类型	支持控制类型	模型位置
InstantX ControlNet	统一 ControlNet 模型	canny, soft edge, depth, pose	`models/controlnet/`
DiffSynth Model Patches	模型补丁（Model Patch）	canny, depth, inpaint	`models/model_patches/`
DiffSynth Union LoRA	LoRA 模型	canny, depth, pose, lineart, softedge, normal, openpose	`models/loras/`

下面逐一介绍各方案的使用方法与注意事项。

方案一：InstantX统一ControlNet（支持4类控件，新手友好，对硬件要求高）

InstantX团队推出的Qwen-Image-InstantX-ControlNet-Union是“一站式控制模型”，无需切换多个文件，直接支持canny（线稿）、soft edge（软边缘）、depth（深度）、pose（姿势） 4种常见控制类型，适合新手快速入门。

1. 准备工作：下载模型与工具

需下载两类核心文件，注意区分保存路径：

文件类型	具体文件名	保存路径	说明
统一ControlNet模型	Qwen-Image-InstantX-ControlNet-Union.safetensors	ComfyUI/models/controlnet/	核心控制模型，必须正确放置
深度图生成模型（Lotus Depth）	lotus-depth-d-v1-1.safetensors	ComfyUI/models/diffusion_models/	用于生成depth控制所需的深度图
VAE模型	vae-ft-mse-840000-ema-pruned.safetensors（或任意SD1.5 VAE）	ComfyUI/models/vae/	配合Lotus Depth生成高质量深度图，SD1.5 VAE可通用

此外，若需处理其他类型图像（如pose），建议安装comfyui_controlnet_aux自定义节点（ComfyUI中搜索节点名称即可安装），用于完成pose检测等预处理。

2. 分步操作指南

确认模型加载：找到“Load ControlNet Model”节点，检查其加载的模型是否为“Qwen-Image-InstantX-ControlNet-Union.safetensors”（路径正确则会自动识别，若未加载需手动选择）；
上传输入图像：在“Load Image”节点中上传需要控制的原始图像（如人物照、场景照）；
处理深度图（仅depth控制需此步）：
- 若使用depth控制，找到工作流中的“Lotus Depth子图”（ComfyUI中可双击子图查看细节）；
- 确保“Lotus Depth模型”（lotus-depth-d-v1-1.safetensors）和“VAE模型”已正确加载，子图会自动将原始图像预处理为深度图；
运行工作流：点击界面顶部“Run”按钮，或使用快捷键Ctrl（Windows）/Cmd（Mac）+ Enter，等待生成结果。

3. 注意事项

若需切换控制类型（如从canny改为pose），只需替换“图像预处理节点”（如用comfyui_controlnet_aux的pose检测节点替换canny节点），核心ControlNet模型无需更换；
生成结果若控制效果过强/过弱，可调整“ControlNet Apply”节点中的“strength”参数（数值越高，控制越严格，建议从0.7开始测试）。

方案二：DiffSynth-ControlNets模型补丁（分3类模型，精准适配场景）

DiffSynth-Studio的方案并非传统ControlNet，而是“模型补丁（Model Patch）”，需根据控制类型选择对应的补丁文件，支持canny、depth、inpaint（重绘） 三类场景，适合对“局部控制精度”有高要求的用户。

1. 准备工作：下载模型补丁

该方案无需额外下载ControlNet模型，只需下载3个补丁文件，注意保存路径为ComfyUI/models/model_patches/（与ControlNet路径不同，不可混淆）：

qwen_image_canny_diffsynth_controlnet.safetensors（canny控制补丁）
qwen_image_depth_diffsynth_controlnet.safetensors（depth控制补丁）
qwen_image_inpaint_diffsynth_controlnet.safetensors（inpaint控制补丁）

其他基础模型（如Qwen-Image主模型、VAE）与Qwen-Image基础工作流一致，无需重复下载。

2. 分类型操作指南

三类补丁的使用逻辑不同，需分别设置预处理步骤，以下为详细流程：

（1）Canny控制（线稿轮廓控制）

加载补丁模型：找到“ModelPatchLoader”节点，选择“qwen_image_canny_diffsynth_controlnet.safetensors”；
预处理图像：使用ComfyUI原生的“Canny”节点（无需额外安装），上传原始图像后，通过调整“low threshold”“high threshold”参数（建议low=100、high=200，可根据图像细节微调），生成线稿轮廓；
调整控制强度：在“QwenImageDiffsynthControlnet”节点中，修改“strength”参数（默认0.8，数值越高线稿控制越明显）；
运行：点击“Run”或使用快捷键，生成符合线稿轮廓的图像。

（2）Depth控制（空间关系控制）

加载补丁模型：“ModelPatchLoader”节点选择“qwen_image_depth_diffsynth_controlnet.safetensors”；
生成深度图：参考InstantX工作流的“Lotus Depth子图”逻辑，用Lotus Depth模型将原始图像预处理为深度图，替换工作流中的“image processing”节点输出；
运行：后续步骤与Canny控制一致，无需额外调整其他节点。

（3）Inpaint控制（局部重绘控制）

Inpaint需额外处理“蒙版（Mask）”，步骤稍多：

加载补丁模型：“ModelPatchLoader”节点选择“qwen_image_inpaint_diffsynth_controlnet.safetensors”；
上传图像与绘制蒙版：
- 在“Load Image”节点上传原始图像；
- 使用ComfyUI自带的“蒙版编辑器”（点击“Load Image”节点的“mask”按钮），用画笔标记需要重绘的区域（标记区域为白色，未标记为黑色）；
- 将“Load Image”节点的“mask”输出端，连接到“QwenImageDiffsynthControlnet”节点的“mask”输入端，确保蒙版生效；
绕过Canny节点：由于Inpaint无需线稿控制，按下快捷键Ctrl+B，将工作流中的“Canny”节点设置为“绕过模式”（节点会显示灰色，不再参与处理）；
输入重绘指令：在“CLIP Text Encoder”节点中，输入对蒙版区域的重绘需求（如“将蒙版区域改为蓝色天空，保持其他部分不变”）；
运行：点击“Run”，模型会仅对蒙版区域进行重绘，保留非蒙版区域的原始内容。

方案三：Union ControlNet LoRA（支持7类控件，灵活度最高，硬件要求低推荐使用）

DiffSynth-Studio的qwen_image_union_diffsynth_lora是“控制型LoRA”，无需单独加载ControlNet模型，直接通过LoRA注入控制能力，支持canny、depth、pose、lineart（线稿）、softedge（软边缘）、normal（法向量）、openpose（骨骼姿势） 7类控制类型，灵活度最高。

1. 准备工作：下载LoRA模型

仅需下载1个LoRA文件，保存路径为ComfyUI/models/loras/（LoRA专属路径，不可放错）：

2. 操作指南

加载LoRA模型：找到“LoraLoaderModelOnly”节点，选择“qwen_image_union_diffsynth_lora.safetensors”，确保LoRA成功注入（节点会显示LoRA名称及权重）；
上传与预处理图像：
- 上传原始图像后，根据控制类型选择预处理节点（如canny用原生Canny节点，pose用comfyui_controlnet_aux的OpenPose节点）；
- 若预处理效果不佳（如线稿细节过少），可调整预处理节点参数（如Canny的阈值、OpenPose的骨骼检测精度）；
运行工作流：点击“Run”或使用快捷键，生成结果。