CoRe:用于文本到图像个性化的上下文正则化文本嵌入学习

中山大学和香港理工大学的研究人员推出文本对齐新技术CoRe,它用于提升文本到图像个性化生成的效果。简单来说,CoRe技术可以帮助人工智能系统更好地理解用户通过文本提供的概念,并生成与这些概念和文本描述相匹配的图像。

近期在文本到图像个性化方面的进展使得用户提供的概念能够生成高质量且可控的图像合成。然而,现有的方法在平衡身份保留与文本对齐方面仍面临挑战。研究团队提出的新方法基于这样一个事实:生成与提示对齐的图像需要对提示有精确的语义理解,这涉及到在 CLIP 文本编码器中准确处理新概念与其周围上下文 Token 之间的交互作用。为了解决这个问题,研究团队旨在将新概念适当地嵌入到文本编码器的输入嵌入空间中,从而实现与现有 Token 的无缝集成。研究团队引入了上下文正则化(Context Regularization, CoRe),该方法通过对提示中的上下文 Token 进行正则化来增强新概念文本嵌入的学习。这一方法基于这样的认识:只有正确学习了新概念的文本嵌入,才能实现上下文 Token 在文本编码器中的适当输出向量。CoRe 可以应用于任意提示,无需生成相应的图像,从而提高了所学文本嵌入的泛化能力。此外,CoRe 还可以用作测试时的优化技术,以进一步提升特定提示的生成效果。

主要功能:

CoRe的主要功能是改善文本到图像生成过程中的身份保持(即生成的图像与用户提供的样本图像保持一致性)和文本对齐(即生成的图像与文本描述相匹配)之间的平衡。这通常在用户希望生成特定风格的图像时非常重要,比如用户可能希望生成一个穿着特定服装的人物图像。

主要特点:

  1. 上下文正则化: CoRe通过正则化(或调整)文本中的上下文词汇来增强新概念的文本嵌入学习,确保新概念能够与文本中的其他词汇协调一致。
  2. 无需对应图像: CoRe可以在不需要生成对应图像的情况下应用于任意提示,提高了文本嵌入的泛化能力。
  3. 测试时优化: CoRe还可以作为一种测试时的优化技术,进一步提升特定提示的生成效果。

工作原理:

CoRe的工作原理基于以下两个关键洞见:

  1. 如果新概念的文本嵌入学习得当,那么文本编码器中上下文词汇的输出嵌入应该是适当的。
  2. 在提示中替换对象词汇时(例如将“狗”换成“猫”),上下文词汇的输出嵌入和注意力图应该保持一致。

基于这些洞见,CoRe通过以下步骤工作:

  • 构建一个包含新概念和其超类词汇的参考提示,并在输出嵌入和注意力图上施加相似性约束。
  • 通过这种方式,CoRe确保新概念的文本嵌入与现有词汇无缝集成,从而提高生成图像的质量和与文本描述的匹配度。

具体应用场景:

  1. 个性化图像生成: 用户可以提供自己的图片和描述,生成与这些个性化特征相匹配的新图像。
  2. 艺术创作: 艺术家可以利用CoRe生成与他们创意文本描述相符的艺术风格图像。
  3. 娱乐和游戏: 在游戏或娱乐应用中,CoRe可以根据玩家提供的描述生成独特的角色或场景。

总的来说,CoRe技术为文本到图像的个性化生成提供了一种有效的方法,使得AI生成的图像能够更好地反映用户的具体需求和创意。

0

评论0

没有账号?注册  忘记密码?