Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

工作流3个月前发布 小马良
811 0

阿里巴巴通义千问团队发布的 Qwen-Image,是首个基于 MMDiT 架构的开源图像生成基础模型,参数规模达 20B,采用 Apache 2.0 许可证开放,支持高分辨率、多轮对话式图像生成。

随着社区生态的发展,目前已涌现出多种 ControlNet 与 LoRA 控制方案,帮助用户实现对生成图像的结构化引导,如边缘、深度、姿态、线稿等控制。

本文将系统梳理当前主流的三种控制方式:

  1. InstantX 统一 ControlNet
  2. DiffSynth Model Patches(模型补丁)
  3. DiffSynth Union LoRA

每种方案在兼容性、灵活性与部署方式上各有特点,适用于不同使用场景。

前置说明:Qwen-Image基础环境与核心概念

在开始具体工作流操作前,需先明确两个关键前提,避免后续部署出错:

  • 基础环境:所有工作流均基于ComfyUI运行,请将ComfyUI升级到最新开发版(nightly),下载所需模型;
  • 核心差异:三类ControlNet方案的本质不同——InstantX是“统一ControlNet模型”,DiffSynth是“模型补丁(Model Patch)”,Union是“控制型LoRA”,对应的文件存放路径、预处理逻辑均有区别,需重点注意模型保存位置(后文会逐一标注)。
  • 工作流:所需工作流均可在工作流模板中获取,点击即可加载。
Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

方案概览:三种控制方式对比

方案类型支持控制类型模型位置
InstantX ControlNet统一 ControlNet 模型canny, soft edge, depth, posemodels/controlnet/
DiffSynth Model Patches模型补丁(Model Patch)canny, depth, inpaintmodels/model_patches/
DiffSynth Union LoRALoRA 模型canny, depth, pose, lineart, softedge, normal, openposemodels/loras/

下面逐一介绍各方案的使用方法与注意事项。

方案一:InstantX统一ControlNet(支持4类控件,新手友好,对硬件要求高)

InstantX团队推出的Qwen-Image-InstantX-ControlNet-Union是“一站式控制模型”,无需切换多个文件,直接支持canny(线稿)、soft edge(软边缘)、depth(深度)、pose(姿势) 4种常见控制类型,适合新手快速入门。

1. 准备工作:下载模型与工具

需下载两类核心文件,注意区分保存路径:

文件类型具体文件名保存路径说明
统一ControlNet模型Qwen-Image-InstantX-ControlNet-Union.safetensorsComfyUI/models/controlnet/核心控制模型,必须正确放置
深度图生成模型(Lotus Depth)lotus-depth-d-v1-1.safetensorsComfyUI/models/diffusion_models/用于生成depth控制所需的深度图
VAE模型vae-ft-mse-840000-ema-pruned.safetensors(或任意SD1.5 VAE)ComfyUI/models/vae/配合Lotus Depth生成高质量深度图,SD1.5 VAE可通用

此外,若需处理其他类型图像(如pose),建议安装comfyui_controlnet_aux自定义节点(ComfyUI中搜索节点名称即可安装),用于完成pose检测等预处理。

Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

2. 分步操作指南

  1. 确认模型加载:找到“Load ControlNet Model”节点,检查其加载的模型是否为“Qwen-Image-InstantX-ControlNet-Union.safetensors”(路径正确则会自动识别,若未加载需手动选择);
  2. 上传输入图像:在“Load Image”节点中上传需要控制的原始图像(如人物照、场景照);
  3. 处理深度图(仅depth控制需此步)
    • 若使用depth控制,找到工作流中的“Lotus Depth子图”(ComfyUI中可双击子图查看细节);
    • 确保“Lotus Depth模型”(lotus-depth-d-v1-1.safetensors)和“VAE模型”已正确加载,子图会自动将原始图像预处理为深度图;
  4. 运行工作流:点击界面顶部“Run”按钮,或使用快捷键Ctrl(Windows)/Cmd(Mac)+ Enter,等待生成结果。
Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

3. 注意事项

  • 若需切换控制类型(如从canny改为pose),只需替换“图像预处理节点”(如用comfyui_controlnet_aux的pose检测节点替换canny节点),核心ControlNet模型无需更换;
  • 生成结果若控制效果过强/过弱,可调整“ControlNet Apply”节点中的“strength”参数(数值越高,控制越严格,建议从0.7开始测试)。

方案二:DiffSynth-ControlNets模型补丁(分3类模型,精准适配场景)

DiffSynth-Studio的方案并非传统ControlNet,而是“模型补丁(Model Patch)”,需根据控制类型选择对应的补丁文件,支持canny、depth、inpaint(重绘) 三类场景,适合对“局部控制精度”有高要求的用户。

Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

1. 准备工作:下载模型补丁

该方案无需额外下载ControlNet模型,只需下载3个补丁文件,注意保存路径为ComfyUI/models/model_patches/(与ControlNet路径不同,不可混淆):

  • qwen_image_canny_diffsynth_controlnet.safetensors(canny控制补丁)
  • qwen_image_depth_diffsynth_controlnet.safetensors(depth控制补丁)
  • qwen_image_inpaint_diffsynth_controlnet.safetensors(inpaint控制补丁)
Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

其他基础模型(如Qwen-Image主模型、VAE)与Qwen-Image基础工作流一致,无需重复下载。

Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

2. 分类型操作指南

三类补丁的使用逻辑不同,需分别设置预处理步骤,以下为详细流程:

(1)Canny控制(线稿轮廓控制)

  1. 加载补丁模型:找到“ModelPatchLoader”节点,选择“qwen_image_canny_diffsynth_controlnet.safetensors”;
  2. 预处理图像:使用ComfyUI原生的“Canny”节点(无需额外安装),上传原始图像后,通过调整“low threshold”“high threshold”参数(建议low=100、high=200,可根据图像细节微调),生成线稿轮廓;
  3. 调整控制强度:在“QwenImageDiffsynthControlnet”节点中,修改“strength”参数(默认0.8,数值越高线稿控制越明显);
  4. 运行:点击“Run”或使用快捷键,生成符合线稿轮廓的图像。
Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

(2)Depth控制(空间关系控制)

  1. 加载补丁模型:“ModelPatchLoader”节点选择“qwen_image_depth_diffsynth_controlnet.safetensors”;
  2. 生成深度图:参考InstantX工作流的“Lotus Depth子图”逻辑,用Lotus Depth模型将原始图像预处理为深度图,替换工作流中的“image processing”节点输出;
  3. 运行:后续步骤与Canny控制一致,无需额外调整其他节点。

(3)Inpaint控制(局部重绘控制)

Inpaint需额外处理“蒙版(Mask)”,步骤稍多:

  1. 加载补丁模型:“ModelPatchLoader”节点选择“qwen_image_inpaint_diffsynth_controlnet.safetensors”;
  2. 上传图像与绘制蒙版
    • 在“Load Image”节点上传原始图像;
    • 使用ComfyUI自带的“蒙版编辑器”(点击“Load Image”节点的“mask”按钮),用画笔标记需要重绘的区域(标记区域为白色,未标记为黑色);
    • 将“Load Image”节点的“mask”输出端,连接到“QwenImageDiffsynthControlnet”节点的“mask”输入端,确保蒙版生效;
  3. 绕过Canny节点:由于Inpaint无需线稿控制,按下快捷键Ctrl+B,将工作流中的“Canny”节点设置为“绕过模式”(节点会显示灰色,不再参与处理);
  4. 输入重绘指令:在“CLIP Text Encoder”节点中,输入对蒙版区域的重绘需求(如“将蒙版区域改为蓝色天空,保持其他部分不变”);
  5. 运行:点击“Run”,模型会仅对蒙版区域进行重绘,保留非蒙版区域的原始内容。
Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

方案三:Union ControlNet LoRA(支持7类控件,灵活度最高,硬件要求低推荐使用)

DiffSynth-Studio的qwen_image_union_diffsynth_lora是“控制型LoRA”,无需单独加载ControlNet模型,直接通过LoRA注入控制能力,支持canny、depth、pose、lineart(线稿)、softedge(软边缘)、normal(法向量)、openpose(骨骼姿势) 7类控制类型,灵活度最高。

Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

1. 准备工作:下载LoRA模型

仅需下载1个LoRA文件,保存路径为ComfyUI/models/loras/(LoRA专属路径,不可放错):

Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

2. 操作指南

  1. 加载LoRA模型:找到“LoraLoaderModelOnly”节点,选择“qwen_image_union_diffsynth_lora.safetensors”,确保LoRA成功注入(节点会显示LoRA名称及权重);
  2. 上传与预处理图像
    • 上传原始图像后,根据控制类型选择预处理节点(如canny用原生Canny节点,pose用comfyui_controlnet_aux的OpenPose节点);
    • 若预处理效果不佳(如线稿细节过少),可调整预处理节点参数(如Canny的阈值、OpenPose的骨骼检测精度);
  3. 运行工作流:点击“Run”或使用快捷键,生成结果。
Qwen-Image 图像生成实操指南:三大ControlNet 方案从部署到运行,新手也能上手

3. 注意事项

  • 该LoRA支持多类控制,但同一时间建议仅使用一种控制类型(如同时开启canny和depth可能导致效果冲突);
  • 若需切换控制类型,只需替换预处理节点(如将Canny节点换成Lineart节点),LoRA模型无需重新加载。

通用注意事项

  • 建议安装 comfyui_controlnet_aux 插件,支持自动预处理图片;
  • 不同输入图像可能需要调整预处理参数(如 Canny 的低/高阈值);
  • Qwen-Image 对输入尺寸有一定要求,建议使用官方推荐分辨率。

推荐分辨率(比例)一览:

  • 横图封面:1664×928(16:9)
  • 内容卡片:1472×1140(4:3)
  • 方图首图:1328×1328(1:1)
  • 海报竖排:1140×1472(3:4)
  • 竖屏封面:928×1664(9:16)
© 版权声明

相关文章

暂无评论

none
暂无评论...