SNOOPI:提高一步式(one-step)文生图模型的稳定性和控制能力

VinAI Research和越南邮电技术学院的研究人员提出了SNOOPI,这是一个旨在解决现有一步骤扩散模型局限性的新颖框架。SNOOPI通过增强训练和推理过程中的指导,解决了现有一步式扩散模型在处理不同扩散模型背骨时的不稳定性问题,并且增加了对负提示(negative prompt)的支持,这对于实际图像生成至关重要。

例如,你想要生成一张梵高风格的图片,但是不希望图片中出现特定的元素,比如“帽子”。使用SNOOPI,你可以通过提供一个正向提示(“Vincent van Gogh”)和一个负向提示(“hat”),生成一张符合梵高风格但没有帽子的图片。

主要功能

SNOOPI的主要功能包括:

  1. 适当的指导(Proper Guidance - SwiftBrush, PG-SB):通过在训练过程中变化教师模型的指导比例,增强模型对不同扩散背骨的适应性,提高训练稳定性。
  2. 负向远离引导注意(Negative-Away Steer Attention, NASA):在推理过程中,通过交叉注意力机制整合负提示,有效减少生成图像中不需要的特征。

主要特点

  1. 训练稳定性提升:PG-SB通过随机变化指导比例,使得模型能够在不同背骨上稳定训练,而无需额外的计算成本。
  2. 负提示支持:NASA是首个将负提示引导集成到一步式扩散模型的方法,增强了模型在快速生成设置中的控制能力。
  3. 无需图像级监督:SNOOPI恢复了SwiftBrushv2作为无需图像级监督的一步式蒸馏方法。

工作原理

SNOOPI的工作原理涉及以下几个步骤:

  1. 适当的指导(PG-SB):在训练过程中,PG-SB通过从均匀分布中随机采样指导比例,而不是固定一个值,来拓宽教师模型的输出分布,使得学生模型能够更好地适应教师模型的输出。
  2. 负向远离引导注意(NASA):在推理过程中,NASA通过处理正向和负向文本特征,调整交叉注意力层,从而在特征空间中过滤掉不需要的特征,而不是在图像空间中。

实验结果与性能提升

实验结果显示,SNOOPI提出的PG-SB和NASA方法在各个指标上显著提高了基线模型的性能。特别是,SNOOPI实现了以下突破:

  • 31.08的HPSv2得分:这是迄今为止一步骤扩散模型的最佳成绩,标志着SNOOPI在该领域设定了新的最先进基准。
  • 广泛的适用性:SNOOPI不仅在特定的基础架构上表现优异,还能有效地跨多种扩散模型基础架构工作,展示了其强大的泛化能力和适应性。
0

评论0

没有账号?注册  忘记密码?