尽管文本到图像(T2I)生成模型在近年来取得了显著进展,用户在实际应用中仍然面临着诸多挑战。制作合适的提示、选择适当的模型和配置特定参数等繁琐步骤的复杂性和不确定性,使得用户不得不通过反复试验来获得满意的图像。这种劳动密集型的过程不仅耗时,还可能阻碍了T2I技术的广泛应用。
研究团队与解决方案
为了解决这一问题,西安交通大学、新加坡国立大学和A*STAR前沿人工智能研究中心的研究人员提出了一种全新的自动T2I生成系统——ChatGen。该系统旨在自动化繁琐的生成步骤,使用户能够以自由聊天的形式简单描述他们的需求,从而轻松获得高质量的图像。
- 项目主页:https://chengyou-jia.github.io/ChatGen-Home
- GitHub:https://github.com/chengyou-jia/ChatGen
- 模型:https://huggingface.co/collections/ChengyouJia/chatgen-6744724ae834402b5b69037b
用户在使用传统的T2I模型时,往往需要经历一系列复杂的步骤,如精心设计提示词(prompts)、选择合适的模型以及配置具体的参数,这些步骤既耗时又需要一定的专业知识。ChatGen的目标是允许用户以自由式聊天的方式简单地描述他们的需求,并自动生成所需的图像。例如,一个用户想要生成一张具有特定风格的动漫女孩图片,他只需要告诉ChatGen:“我想要一个穿着特定服装、有着黑白发色的动漫女孩的图片。”ChatGen将自动处理余下的所有步骤,包括生成高质量的提示词、选择合适的T2I模型以及配置生成图像所需的参数。
主要功能
- 自动生成提示词:从用户的自由式输入中生成高质量的提示词。
- 自动模型选择:根据用户的输入和生成的提示词选择合适的T2I模型。
- 自动参数配置:为选定的模型配置生成图像所需的参数。
主要特点
- 多步骤推理:ChatGen将T2I生成视为一个复杂的多步骤推理问题,并采用多阶段进化策略逐步赋予模型自动化技能。
- 用户友好:用户无需深入了解T2I模型的复杂性,只需以自然语言描述需求。
- 性能提升:通过多阶段训练和专门的ModelToken策略,ChatGen在各种基线上显著提升了性能。
工作原理
ChatGen通过以下三个阶段实现自动T2I生成:
- 提示词编写:使用监督式微调(Supervised Fine-Tuning,简称SFT)训练模型,将自由式输入转换为有效的提示词。
- 模型选择:引入ModelToken策略,使模型能够在不影响提示词编写能力的情况下选择适当的T2I模型。
- 参数配置:利用上下文学习(In-Context Learning),根据前两阶段的结果指导模型完成参数配置。
ChatGenBench:新基准的引入
为了系统地研究和评估自动T2I生成的性能,研究人员首先引入了一个名为 ChatGenBench 的新基准。这个基准具有以下特点:
- 高质量配对数据:提供了大量经过精心标注的文本-图像对,确保了数据的质量和可靠性。
- 多样化自由输入:涵盖了多种类型的用户输入,包括自然语言描述、风格要求和场景设定等,全面反映了实际应用场景中的多样性。
- 多维度评估:能够从多个角度评估自动T2I模型的表现,包括提示生成、模型选择、参数配置和最终图像质量等方面。
ChatGen-Evo:多阶段进化策略
为了进一步提升自动T2I生成的效果,研究人员提出了 ChatGen-Evo,一个多阶段进化策略。该策略将自动T2I视为一个复杂的多步骤推理任务,并逐步赋予模型必要的自动化技能。具体来说,ChatGen-Evo通过以下几个阶段实现:
- 提示生成:根据用户的自由输入,自动生成合适的提示,确保提示既能准确反映用户需求,又符合T2I模型的要求。
- 模型选择:根据提示内容和用户需求,智能选择最合适的T2I模型,避免了用户手动选择的不确定性和复杂性。
- 参数配置:自动调整模型的参数设置,优化生成过程,确保最终图像的质量和一致性。
- 图像生成与反馈:生成图像后,系统会根据用户反馈进行迭代优化,逐步提高图像的满意度。
评估与结果
通过对 ChatGen-Evo 在 ChatGenBench 上的广泛评估,研究团队发现该方法在步骤准确性和图像质量方面显著优于各种基线模型。具体而言:
- 步骤准确性:ChatGen-Evo能够在各个生成步骤中表现出更高的准确性和一致性,减少了用户需要进行的手动调整。
- 图像质量:生成的图像不仅在视觉上更加逼真,还能更好地满足用户的个性化需求,提升了整体用户体验。
评论0