SNOOPI：提高一步式（one-step）文生图模型的稳定性和控制能力

124 0

VinAI Research和越南邮电技术学院的研究人员提出了SNOOPI，这是一个旨在解决现有一步骤扩散模型局限性的新颖框架。SNOOPI通过增强训练和推理过程中的指导，解决了现有一步式扩散模型在处理不同扩散模型背骨时的不稳定性问题，并且增加了对负提示（negative prompt）的支持，这对于实际图像生成至关重要。

项目主页：https://snoopi-onestep.github.io
GitHub：https://github.com/VinAIResearch/SNOOPI

例如，你想要生成一张梵高风格的图片，但是不希望图片中出现特定的元素，比如“帽子”。使用SNOOPI，你可以通过提供一个正向提示（“Vincent van Gogh”）和一个负向提示（“hat”），生成一张符合梵高风格但没有帽子的图片。

主要功能

SNOOPI的主要功能包括：

适当的指导（Proper Guidance - SwiftBrush, PG-SB）：通过在训练过程中变化教师模型的指导比例，增强模型对不同扩散背骨的适应性，提高训练稳定性。
负向远离引导注意（Negative-Away Steer Attention, NASA）：在推理过程中，通过交叉注意力机制整合负提示，有效减少生成图像中不需要的特征。

主要特点

训练稳定性提升：PG-SB通过随机变化指导比例，使得模型能够在不同背骨上稳定训练，而无需额外的计算成本。
负提示支持：NASA是首个将负提示引导集成到一步式扩散模型的方法，增强了模型在快速生成设置中的控制能力。
无需图像级监督：SNOOPI恢复了SwiftBrushv2作为无需图像级监督的一步式蒸馏方法。

工作原理

SNOOPI的工作原理涉及以下几个步骤：

适当的指导（PG-SB）：在训练过程中，PG-SB通过从均匀分布中随机采样指导比例，而不是固定一个值，来拓宽教师模型的输出分布，使得学生模型能够更好地适应教师模型的输出。
负向远离引导注意（NASA）：在推理过程中，NASA通过处理正向和负向文本特征，调整交叉注意力层，从而在特征空间中过滤掉不需要的特征，而不是在图像空间中。