文生图

Estimated reading: 1 minute 537 views

之前已经在界面(基础工作流创建)为大家讲解了如何创建最基础的工作流,但基础工作流只能加载SD1.5模型,那SDXL模型、Lora模型该如何在ComfyUI上运行呢?今天就来给大家讲解一下。

文生图

Lora

LoRA是微软技术人员于2021年为解决大语言模型微调而开发的一项技术,用于大语言模型在特定任务或领域上的高效适应,这是一种既节省资源又保持高性能的解决方案。更具体信息,请查看:Stable Diffusion绘画中常用的LoRA模型是什么?

文生图

在了解完基础工作流创建和LoRA模型后,LoRA模型的节点该如何添加呢?其实只需在基础工作流上添加一个LoRA模型加载节点即可,大家也不需要一步一步的添加,直接点击右侧面板的加载默认按钮,就会加载一个基础工作流。

文生图

1、添加 LoRA 节点

只需要右键 → 新建节点 →加载器→ LoRA加载器,即可添加 LoRA 节点

文生图

2、连接节点

节点左侧与 大模型相连,右侧与 CLIP 和 K采样器 相连,连线的规则也已经在界面(基础工作流创建)里为大家讲解过

文生图

如果要添加多个Lora,请看下图,使用串联方法连接

文生图

3、VAE

大家在下载LoRA模型的时候,请注意查看模型介绍,作者是否有推荐大家使用的大模型、LoRA和采样器,请根据作者的介绍来进行添加。

文生图

请根据LoRA作者的要求进行设置,如果有特殊VAE的要求,大家可以添加独立的VAE节点

文生图

SDXL

SDXL模型与SD1.5模型不同,他其实是由两个模型组成,具体可参考Stable Diffusion XL(SDXL),基础与细化(refiner)模型,不过目前很多第三方模型已经不需要refiner模型来进行细化,大家使用基础工作流就可以进行生图,不过还是要给大家细说一下怎么使用官方发布的SDXL如何在ComfyUI上使用。

一、加载 refiner 模型

加载基础工作流,在适当位置添加一个 Checkpoint 加载器,将节点标题更改为 refiner 模型

文生图

二、提示词输入

1、有了模型节点,接下来需要连接提示词。不仅基础模型需要连接提示词,refiner 细化也需要提示词作为基础,根据之前的连线规则,这时候就有问题了,总不能每次生图都要输入两次正反提示词吧?

2、因此我们需要输入一次提示词,就可以被两个模型使用,这时候我们就需要在“CLIP 文本编码器”上做一些改变

3、在“CLIP 文本编码器”上右键,选择“转换文本为输入”,这样我们就可以将文本输入框转换为文本节点,并传输内容到“CLIP 文本编码器”。

文生图

4、右键,选择“新建节点” -> “实用工具” -> “Primitive元节点”作为输入提示词的节点

文生图

5、连接“CLIP 文本编码器上的文本”和“Primitive 元节点”,这样之前输入的内容就会出现在“Primitive 元节点”上,并且还可以修改

文生图

使用克隆,快速创建节点

6、将“Primitive 元节点”作为输出项,连接到另一组“CLIP 文本编码器”,然后克隆这两组“CLIP 文本编码器”连接到 refiner 模型。

文生图

需要四个CLIP 文本编码器

三、K 采样器(高级)

1、在之前教程里已经提到,在采样器选择中,有两个选项:“K 采样器”和“K 采样器(高级)”。今天将讲解高级采样器的使用。

文生图

2、高级采样器具有“添加噪波、开始降噪步数、结束降噪步数、返回噪波”等选项,少了“降噪”选项。

  • 添加噪波:控制是否生成随机种子。对于基础模型连接的采样器,启用此选项(enable);对于 refiner 模型连接的采样器,禁用此选项(disable)。(PS:refiner 模型是对生成的图片进行细化,因此种子应与 base 模型相同)

  • 开始/结束降噪步数:定义从哪一步开始/结束降噪。对于 base 模型,通常从第 0 步开始;对于 refiner 模型,开始步数与 base 模型的结束步数相对应。(PS:总步数 40 步,base 模型的结束步数是30,那 refiner 模型的开始步数就是 30)

  • 返回噪波:将随机种子返回给下一个采样器。对于 base 模型连接的采样器,启用此选项;对于 refiner 模型连接的采样器,禁用此选项。

3、连接采样器,并将 refiner 采样器的“Latent”与 base 采样器的输出“Latent”连接,创建一个设置图片尺寸的节点,连接到base 采样器

文生图

四、VAE 解码及保存图像

1、将 VAE 解码器与 refiner 采样器连接。可以选择连接任何大模型的 VAE端点,或使用“VAE 加载器”加载一个;连接完成后,运行流程以检查是否有错误。

文生图流程创建完毕后,检测是否有错误

2、若要查看 base 模型连接的采样器生成的图像,可以在 base 采样器后连接一个“VAE 解码”和“预览图像”节点。使用“预览图像”是因为输出的图像可能带有噪点,直接保存会占用存储空间。

文生图

 

优化流程

1、提取共享参数

完成SDXL的流程创建后,您可能会发现在两个采样器上都需要输入总步数、开始降噪步数、结束降噪步数等参数,这显得很繁琐。为了简化此过程,我们可以将这些共享参数提取出来,以实现更高效的参数管理。

2、统一输入数值

观察上述六个数值,我们发现两个总步数应该是相同的,而 base 采样器的结束降噪步数与 refiner 采样器的开始降噪步数也应该保持一致。因此,我们可以将这两组数值统一进行输入。

3、 转换参数为输入

  • 在 base 采样器上,右键点击并选择“转换步数为输入”和“转换结束降噪步数为输入”。

  • 在 refiner 采样器上,同样右键点击并选择“转换步数为输入”和“转换开始降噪步数为输入”。

这样,我们就将这些参数转换为了可输入的节点,使得参数的调整变得更加灵活和方便。

文生图

4、 创建输入节点

  • 接下来,我们需要创建两个“Primitive元节点”作为输入节点。这可以通过右键点击并选择“新建节点” -> “实用工具” -> “Primitive元节点”来完成。

  • 创建好两个输入节点后,一个用于连接步数,另一个用于连接结束/开始降噪步数。

文生图

5、完成与保存

  • 如果你觉得线条和布局过于混乱,可以新建分组,对节点进行分组,让整个工作流更加清晰明了

  • 最后,请记得保存您的工作流,以便下次使用时可以直接加载,无需重复上述步骤。

文生图

暂无评论

none
暂无评论...
分享此文档

文生图

或复制链接

文章目录
Open ASR 排行榜

Open ASR 排行榜

Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
朱雀大模型检测

朱雀大模型检测

腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
Daan

Daan

Daan 是一款简洁、高效的LLM客户端,适合那些希望快速上手并享受流畅AI体验的用户。它不仅支持多种模型和API,还提供了丰富的个性化设置,让你能够根据自己的需求打造专属的AI助手。
Tripo

Tripo

Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
Genspark

Genspark

Genspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。
MinerU

MinerU

MinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。
查看完整榜单