深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法,用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中。该方法通过计算预训练扩散模型中的自注意力特征之间的差异,优化生成图像以实现高质量的视觉特征迁移。AD 方法的核心在于提出了一种新的注意力蒸馏损失函数(AD Loss),通过反向传播优化生成图像,从而在多种图像合成任务中实现风格、外观和纹理的忠实再现。
- 项目主页:https://xugao97.github.io/AttentionDistillation
- GitHub:https://github.com/xugao97/AttentionDistillation
例如,在艺术风格迁移任务中,给定一张梵高的《星月夜》作为参考风格图像,AD 方法可以将这种独特的绘画风格应用到其他内容图像上,生成具有梵高风格的新图像,同时保留原始内容的语义结构。

主要功能
- 风格和外观迁移:AD 方法能够将参考图像的风格或外观特征迁移到新的内容图像上,实现高质量的艺术风格迁移和外观转移。
- 风格特定的文本到图像生成:通过将 AD 损失整合到扩散模型的采样过程中,可以根据文本提示生成具有特定风格的图像。
- 纹理合成与扩展:AD 方法可以用于纹理合成任务,包括控制纹理合成和纹理扩展,生成具有特定纹理特征的新图像。
- 多种视觉特征迁移:AD 方法提供了一个统一的框架,适用于多种视觉特征迁移任务,如风格迁移、外观迁移、纹理合成等。

主要特点
- 注意力蒸馏损失函数:AD 方法提出了一种新的损失函数,通过计算目标图像和参考图像之间的注意力特征差异,优化生成图像以实现视觉特征的忠实再现。
- 优化与采样结合:AD 方法不仅可以通过优化生成图像,还可以整合到扩散模型的采样过程中,实现加速合成和更广泛的应用。
- 内容保持优化:通过结合内容损失和注意力蒸馏损失,AD 方法能够在迁移视觉特征的同时保持目标图像的语义结构。
- 广泛的适用性:AD 方法适用于多种图像合成任务,包括风格迁移、外观迁移、纹理合成和风格特定的文本到图像生成。

工作原理
- 注意力特征提取:
- 利用预训练的扩散模型(如 Stable Diffusion)中的自注意力模块,提取参考图像和目标图像的自注意力特征(K 和 V)。
- 通过自注意力机制,计算目标图像的查询(Q)与参考图像的 K 和 V 之间的注意力输出,作为理想风格化结果。
- 注意力蒸馏损失函数:
- 定义 AD 损失为理想注意力输出与当前注意力输出之间的 L1 距离:
- 通过反向传播优化目标图像的潜在代码,逐步减少目标 Q 和参考 K 之间的差异,从而提高风格化精度。
- 定义 AD 损失为理想注意力输出与当前注意力输出之间的 L1 距离:
- 内容保持优化:
- 在优化过程中,结合内容损失(基于目标图像的 Q 和参考图像的 Q_c 的 L1 距离):
- 总损失为:
- 通过优化总损失,生成的图像既保留了目标内容,又迁移了参考图像的视觉特征。
- 在优化过程中,结合内容损失(基于目标图像的 Q 和参考图像的 Q_c 的 L1 距离):
- 注意力蒸馏引导采样:
- 将 AD 损失整合到扩散模型的采样过程中,通过优化每个采样步骤的潜在代码,实现加速合成。
- 使用 Adam 优化器自动管理优化强度,避免手动调整指导强度的复杂性。

具体应用场景
- 艺术风格迁移:
- 将著名艺术家的风格(如梵高、莫奈)应用到普通照片或绘画作品上,生成具有特定艺术风格的新图像。
- 例如,将梵高的《星月夜》风格应用到城市夜景照片上。
- 外观迁移:
- 在图像编辑中,将一个对象的外观特征迁移到另一个对象上,实现零样本外观迁移。
- 例如,将一只蝴蝶的外观迁移到另一只蝴蝶上,保持其结构不变。
- 风格特定的文本到图像生成:
- 根据文本提示生成具有特定风格的图像,例如生成“一只在草地上奔跑的鹿,具有梵高的风格”。
- 通过结合 AD 损失和扩散模型的采样过程,实现高质量的风格特定生成。
- 纹理合成与扩展:
- 生成具有特定纹理特征的新图像,例如从一个小的纹理样本扩展出大面积的纹理。
- 通过控制纹理合成,可以实现纹理的语义对齐和精确布局。
- 多模态图像生成:
- 结合 ControlNet 等技术,实现基于多种模态(如深度图、边缘图)的风格特定图像生成。
- 例如,根据深度图生成具有特定风格的 3D 效果图像。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...