主题驱动的文本到图像生成旨在通过准确捕捉主体的视觉特征和文本提示的语义内容,在期望的上下文中生成新主体的图像。传统方法依赖于耗时耗资源的微调以实现主题对齐,而最近的零样本方法则依赖于即时的图像提示,通常牺牲了主题对齐。
首尔大学的研究人员提出了一种新颖的零样本方法——Diptych Prompting,通过利用大规模文本到图像模型中双联画生成的涌现特性,将文本到图像生成重新解释为一个具有精确主题对齐的修复任务。这种方法利用了大规模文本到图像(text-to-image)模型的能力,特别是FLUX模型,通过一种新颖的绘画修复(inpainting)策略来生成具有特定主题和文本描述的图像。
例如,你想要生成一张图片,内容是“一只穿着圣诞帽的小狗坐在繁忙的街道上”。使用Diptych Prompting,你只需提供一个小狗的参考图片和一个描述性的文本提示,模型就能生成一张新的图片,其中小狗保持了参考图片的特征,同时出现在文本描述的特定背景中。
主要功能:
-
零样本主题驱动图像生成:无需针对特定主题的训练,直接从参考图片和文本提示生成新图像。 -
风格化图像生成:能够根据提供的样式参考图片生成具有特定风格的图像。 -
主题驱动图像编辑:在已有图像的基础上,根据参考图片修改特定区域的内容。
主要特点:
-
双联画(Diptych)生成能力:模型能够理解双联画中两个面板之间的关联性,并据此生成图像。 -
精确的主题对齐:通过背景移除和增强面板间注意力权重,提高生成图像的主题一致性。 -
灵活的文本条件绘画修复:利用文本提示和参考图片进行绘画修复,生成与文本描述相符的图像。
工作原理:
Diptych Prompting的工作原理包括以下几个关键步骤:
-
双联画框架:将任务重新解释为双联画绘画修复过程,左侧面板包含参考图像,右侧面板基于文本提示进行绘画修复。 -
背景移除:为了避免不必要的内容泄露,如背景、姿势和位置的复制,从参考图像中移除背景。 -
参考注意力增强:增强左侧面板(参考图像)对右侧面板(生成图像)的影响,以更好地捕捉参考主题的细节。 -
文本条件绘画修复:利用FLUX模型的文本条件绘画修复能力,根据文本提示在右侧面板生成图像。
实验结果
实验结果表明,Diptych Prompting显著优于零样本图像提示方法,生成的图像在视觉上更受用户喜爱。具体表现在以下几个方面:
-
主题对齐:生成的图像在主题对齐方面表现出色,能够准确捕捉参考图像的主体特征。 -
精细细节:通过增强面板间的注意力权重,生成的图像在精细细节方面得到了显著提升。 -
用户偏好:用户对Diptych Prompting生成的图像表现出更高的偏好,认为这些图像更具吸引力和真实感。
评论0