英伟达和特拉维夫大学的研究人员推出新型文生图系统ComfyGen,此系统能够根据用户提供的文本提示(prompt),自动选择或生成最适合该提示的图像生成工作流。研究团队引入了一个新颖的任务——提示自适应工作流程生成,其目标是自动为每个用户提示量身定制一个工作流程。研究团队提出了两种基于大语言模型的方法来处理这个任务:一种是基于微调的方法,它从用户偏好数据中学习;另一种是无需训练的方法,它使用大语言模型选择现有的工作流程。与单一模型或与提示无关的通用工作流程相比,这两种方法都提升了图像质量。
如何工作:
ComfyGen基于ComfyUI,ComfyUI允许用户设计和执行生成图像的工作流,并将这些工作流表示为 JSON 文件。ComfyGen使用大语言模型(LLM)来自动选择或生成最适合用户文本提示的文生图工作流。
核心步骤包括:
- 收集和增强工作流:研究者们从社区中获取了一套由人类创建的ComfyUI工作流,并通过随机交换基础模型、LoRAs、采样器甚至步骤数量和指导比例等参数来增强它们。
- 生成和评分图像:使用收集到的500个提示和每个工作流组合生成图像,然后通过美学评估和人类评估来给图像打分。
- 训练大模型:利用收集到的(提示、工作流、分数)三元组来训练 LLM,使其学会如何将提示与高质量的工作流相匹配。
- 推理方法:提出了两种方法,一种是上下文方法(ComfyGen-IC),另一种是微调方法(ComfyGen-FT)。上下文方法利用 大模型 根据提示内容选择工作流,而微调方法则训练 大模型预测特定提示和目标分数下的最佳工作流。
具体应用场景示例:
你是一名平面设计师,需要为一款新产品的广告设计概念图。你提供了一个描述产品的文本提示,比如“一款未来感十足的智能手表,表面显示着复杂数据的界面”。ComfyGen 系统会理解这个提示,并自动选择或生成一个工作流,比如使用特定的模型来生成未来派风格的图像,调整色调以符合高科技感,增加细节以展现手表的精致界面,最终生成一张满足你需求的概念图。这个过程节省了你手动调整和尝试不同设置的时间,让你可以更快地得到想要的结果。
主要功能:
- 文本到图像生成:根据文本提示生成图像。
- 工作流自动选择:自动选择或生成最佳的图像生成工作流。
- 质量提升:通过选择更适合提示的工作流,提高生成图像的质量。
主要特点:
- 用户友好:不需要专业知识,只需提供文本提示。
- 自动化:自动匹配最佳工作流,无需人工干预。
- 高质量输出:通过优化工作流,生成更高质量的图像。
工作原理:
"ComfyGen"使用大语言模型(LLM)来理解文本提示,并根据提示内容选择合适的图像生成组件。这些组件可能包括预训练的生成模型、用于改善输入提示的语言模型、用于修正细节的LoRA模型、用于创建更精细细节的潜在解码器、超分辨率模块等。"ComfyGen"通过训练学习如何将这些组件组合成工作流,以生成与文本提示最匹配的图像。
评论0