单样本文生图模型的微调方法:解决泛化性和真实性问题

来自腾讯的研究人员提出了一种面向对象的单样本文生图模型的微调方法Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding,它旨在解决文本到图像生成模型在处理新对象时的泛化性和真实性问题,尤其是在只有单一样本(如一张图片)的情况下。

这种方法通过对象驱动的方式进行微调,使用原型嵌入来初始化模型,并在微调过程中引入类特征正则化,以保持对象类别的先验知识。此外,还提出了一个对象特定的损失函数,以提高生成图像的真实性,并支持多对象植入。

主要特点:

  1. 对象驱动微调:通过对象的原型嵌入进行初始化,提高模型对新对象的理解和生成能力。
  2. 类特征正则化:在微调过程中保持模型对对象类别的先验知识,防止过拟合并增强生成多样性。
  3. 对象特定损失函数:专注于对象区域,确保生成图像中对象的真实性。
  4. 多对象植入:支持同时植入多个用户指定的对象,生成多样化的图像。

工作原理:

  1. 原型嵌入初始化:使用输入图像和对象类别名称的文本嵌入来计算原型嵌入,作为微调的初始文本嵌入。
  2. 类特征正则化:在微调过程中,通过类特征正则化损失函数来保护对象类别的先验表示,同时允许模型学习新对象的特征。
  3. 对象特定损失函数:在训练过程中,使用对象掩模图像来计算损失,专注于对象区域,提高生成图像的质量和真实性。
  4. 多对象植入:通过分割算法获取对象的掩模图像,并结合对象特定的损失函数,实现多个对象的同时植入。

与现有方法相比,该方法在生成质量、外观多样性和物体保真性方面具有明显提升。

0

评论0

没有账号?注册  忘记密码?