基于ComfyUI的ComfyGen：用于文本到图像生成的提示自适应工作流

778 0

英伟达和特拉维夫大学的研究人员推出新型文生图系统ComfyGen，此系统能够根据用户提供的文本提示（prompt），自动选择或生成最适合该提示的图像生成工作流。研究团队引入了一个新颖的任务——提示自适应工作流程生成，其目标是自动为每个用户提示量身定制一个工作流程。研究团队提出了两种基于大语言模型的方法来处理这个任务：一种是基于微调的方法，它从用户偏好数据中学习；另一种是无需训练的方法，它使用大语言模型选择现有的工作流程。与单一模型或与提示无关的通用工作流程相比，这两种方法都提升了图像质量。

项目主页：https://comfygen-paper.github.io

如何工作：

ComfyGen基于ComfyUI，ComfyUI允许用户设计和执行生成图像的工作流，并将这些工作流表示为 JSON 文件。ComfyGen使用大语言模型（LLM）来自动选择或生成最适合用户文本提示的文生图工作流。

核心步骤包括：

收集和增强工作流：研究者们从社区中获取了一套由人类创建的ComfyUI工作流，并通过随机交换基础模型、LoRAs、采样器甚至步骤数量和指导比例等参数来增强它们。
生成和评分图像：使用收集到的500个提示和每个工作流组合生成图像，然后通过美学评估和人类评估来给图像打分。
训练大模型：利用收集到的（提示、工作流、分数）三元组来训练 LLM，使其学会如何将提示与高质量的工作流相匹配。
推理方法：提出了两种方法，一种是上下文方法（ComfyGen-IC），另一种是微调方法（ComfyGen-FT）。上下文方法利用 大模型 根据提示内容选择工作流，而微调方法则训练 大模型预测特定提示和目标分数下的最佳工作流。

具体应用场景示例：

你是一名平面设计师，需要为一款新产品的广告设计概念图。你提供了一个描述产品的文本提示，比如“一款未来感十足的智能手表，表面显示着复杂数据的界面”。ComfyGen 系统会理解这个提示，并自动选择或生成一个工作流，比如使用特定的模型来生成未来派风格的图像，调整色调以符合高科技感，增加细节以展现手表的精致界面，最终生成一张满足你需求的概念图。这个过程节省了你手动调整和尝试不同设置的时间，让你可以更快地得到想要的结果。

主要功能：

文本到图像生成：根据文本提示生成图像。
工作流自动选择：自动选择或生成最佳的图像生成工作流。
质量提升：通过选择更适合提示的工作流，提高生成图像的质量。

主要特点：

用户友好：不需要专业知识，只需提供文本提示。
自动化：自动匹配最佳工作流，无需人工干预。
高质量输出：通过优化工作流，生成更高质量的图像。

工作原理：

"ComfyGen"使用大语言模型（LLM）来理解文本提示，并根据提示内容选择合适的图像生成组件。这些组件可能包括预训练的生成模型、用于改善输入提示的语言模型、用于修正细节的LoRA模型、用于创建更精细细节的潜在解码器、超分辨率模块等。"ComfyGen"通过训练学习如何将这些组件组合成工作流，以生成与文本提示最匹配的图像。