苏黎世联邦理工学院和迪士尼研究的研究人员推出自适应投影引导(APG),保留了CFG提高质量的优势,同时允许使用更高的引导比例而不产生过饱和。APG易于实现,并且实际上不会给采样过程带来额外的计算开销。APG能够在不牺牲图像质量的前提下,使用更高的指导尺度(guidance scale),从而生成更丰富、更真实的图像。通过广泛的实验,研究人员证明了APG与各种条件扩散模型和采样器兼容,导致FID、召回率和饱和度评分提高,同时保持与CFG相当的精度,使得APG成为标准无分类器引导的优秀即插即用替代品。
主要特点
- 减少过饱和和人工痕迹:APG通过调整模型更新规则,减少了高指导尺度下图像过于饱和和不自然的问题。
- 保持图像质量:即使在高指导尺度下,APG也能够保持图像的细节和质量。
- 易于实现:APG可以轻松地集成到现有的扩散模型中,几乎不增加额外的计算负担。
工作原理
APG的工作原理包含三个关键步骤:
- 正交投影:将模型更新分解为与条件模型预测平行和垂直的两个部分,然后减弱平行部分的影响,这有助于减少过饱和现象。
- 重新缩放:根据更新向量的大小调整更新步长,以避免在采样过程中产生太大的偏移。
- 反向动量:引入一个反向动量项,使得连续的更新之间产生排斥效应,从而减少已经存在于先前步骤中的成分的影响。
具体应用场景
- 文本到图像的生成:例如,根据文本描述生成相应的图像,如“一只戴着宇航员头盔的狗”,APG能够生成更逼真、更符合描述的图像。
- 图像到图像的翻译:例如,将一张低分辨率的图片转换成高分辨率的图片,同时保持图像内容的真实性。
- 艺术创作:艺术家和设计师可以使用APG来探索不同的视觉风格和细节,生成独特的艺术作品。
总的来说,APG通过改进扩散模型的引导机制,使得生成的图像在保持高质量和细节的同时,减少了不真实感和人为痕迹,提高了生成模型的实用性和艺术表现力。
评论0