BootPIG:零样本个性化图像生成

来自Salesforce的研究人员提出了一种新架构BootPIG,旨在实现零样本个性化图像生成。该架构基于预训练的文本到图像模型Stable Diffusion,通过引入参考图像来指导生成的对象外观,从而实现了零样本个性化图像生成的能力

传统的文本到图像模型在生成图像时缺乏个性化,无法根据特定主题进行生成。BootPIG通过使用文本到图像模型合成的图像作为训练数据,并利用图像分割模型和对话代理模型,实现了针对特定主题的零样本生成。BootPIG架构对预训练的文本到图像模型进行了最小化的修改,并利用一个独立的UNet模型来引导图像生成过程,以实现对生成图像外观的控制。

论文地址:https://arxiv.org/abs/2401.13974

特点:

  1. 零样本个性化生成:BootPIG能够在没有特定对象微调的情况下,根据文本提示生成包含输入主题的新颖场景。
  2. 快速训练:与现有方法相比,BootPIG可以在大约1小时内完成训练,而现有方法可能需要数天的计算资源。
  3. 无需人类标注数据:BootPIG通过使用预训练的文本到图像生成模型、聊天代理和图像分割模型生成合成数据来训练,避免了昂贵的人类标注数据收集过程。
  4. 用户研究验证:通过用户研究,验证了BootPIG在保持参考对象外观和与文本提示对齐方面的偏好。

实现方法:

  1. 架构设计:BootPIG包含两个预训练文本到图像扩散模型的副本,一个用于提取参考图像的视觉特征,另一个用于实际的图像生成过程。
  2. 引导训练过程:通过一个合成数据生成管道,使用ChatGPT生成标题,Stable Diffusion生成图像,以及Segment Anything Model(SAM)进行前景分割,从而创建训练数据。
  3. 参考特征注入:在自注意力(Self-Attention)层中引入参考自注意力(Reference Self-Attention, RSA)操作,允许将参考特征注入到生成过程中。
  4. 训练策略:通过在合成数据上微调Reference U-Net和Base U-Net的参数,使模型能够更好地利用参考特征。

具体应用场景:

  1. 个性化故事讲述:用户可以创建包含特定对象(如宠物、个人物品等)的个性化故事场景。
  2. 交互式设计:设计师可以使用BootPIG快速生成包含特定主题的图像,用于产品设计或概念验证。
  3. 艺术创作:艺术家可以利用BootPIG生成包含特定风格或主题的图像,作为创作灵感。
  4. 内容创作:内容创作者可以利用BootPIG生成与特定主题相关的图像,用于社交媒体、博客或广告。

BootPIG通过结合预训练模型和合成数据,提供了一种高效且用户友好的方法来生成个性化图像,具有广泛的应用潜力。

0

评论0

没有账号?注册  忘记密码?