深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

93 0

深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法，用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中。该方法通过计算预训练扩散模型中的自注意力特征之间的差异，优化生成图像以实现高质量的视觉特征迁移。AD 方法的核心在于提出了一种新的注意力蒸馏损失函数（AD Loss），通过反向传播优化生成图像，从而在多种图像合成任务中实现风格、外观和纹理的忠实再现。

项目主页：https://xugao97.github.io/AttentionDistillation
GitHub：https://github.com/xugao97/AttentionDistillation

例如，在艺术风格迁移任务中，给定一张梵高的《星月夜》作为参考风格图像，AD 方法可以将这种独特的绘画风格应用到其他内容图像上，生成具有梵高风格的新图像，同时保留原始内容的语义结构。

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

主要功能

风格和外观迁移：AD 方法能够将参考图像的风格或外观特征迁移到新的内容图像上，实现高质量的艺术风格迁移和外观转移。
风格特定的文本到图像生成：通过将 AD 损失整合到扩散模型的采样过程中，可以根据文本提示生成具有特定风格的图像。
纹理合成与扩展：AD 方法可以用于纹理合成任务，包括控制纹理合成和纹理扩展，生成具有特定纹理特征的新图像。
多种视觉特征迁移：AD 方法提供了一个统一的框架，适用于多种视觉特征迁移任务，如风格迁移、外观迁移、纹理合成等。

主要特点

注意力蒸馏损失函数：AD 方法提出了一种新的损失函数，通过计算目标图像和参考图像之间的注意力特征差异，优化生成图像以实现视觉特征的忠实再现。
优化与采样结合：AD 方法不仅可以通过优化生成图像，还可以整合到扩散模型的采样过程中，实现加速合成和更广泛的应用。
内容保持优化：通过结合内容损失和注意力蒸馏损失，AD 方法能够在迁移视觉特征的同时保持目标图像的语义结构。
广泛的适用性：AD 方法适用于多种图像合成任务，包括风格迁移、外观迁移、纹理合成和风格特定的文本到图像生成。

工作原理

注意力特征提取：
- 利用预训练的扩散模型（如 Stable Diffusion）中的自注意力模块，提取参考图像和目标图像的自注意力特征（K 和 V）。
- 通过自注意力机制，计算目标图像的查询（Q）与参考图像的 K 和 V 之间的注意力输出，作为理想风格化结果。
注意力蒸馏损失函数：
- 定义 AD 损失为理想注意力输出与当前注意力输出之间的 L1 距离：
  $L_{A D} = ∥ Self-Attn (Q, K, V) - Self-Attn (Q, K_{s}, V_{s}) ∥_{1}$
- 通过反向传播优化目标图像的潜在代码，逐步减少目标 Q 和参考 K 之间的差异，从而提高风格化精度。
内容保持优化：
- 在优化过程中，结合内容损失（基于目标图像的 Q 和参考图像的 Q_c 的 L1 距离）：
  $L_{co n t e n t} = ∥ Q - Q_{c} ∥_{1}$
- 总损失为：
  $L_{t o t a l} = L_{A D} + λ L_{co n t e n t}$
- 通过优化总损失，生成的图像既保留了目标内容，又迁移了参考图像的视觉特征。
注意力蒸馏引导采样：
- 将 AD 损失整合到扩散模型的采样过程中，通过优化每个采样步骤的潜在代码，实现加速合成。
- 使用 Adam 优化器自动管理优化强度，避免手动调整指导强度的复杂性。

具体应用场景

艺术风格迁移：
- 将著名艺术家的风格（如梵高、莫奈）应用到普通照片或绘画作品上，生成具有特定艺术风格的新图像。
- 例如，将梵高的《星月夜》风格应用到城市夜景照片上。
外观迁移：
- 在图像编辑中，将一个对象的外观特征迁移到另一个对象上，实现零样本外观迁移。
- 例如，将一只蝴蝶的外观迁移到另一只蝴蝶上，保持其结构不变。
风格特定的文本到图像生成：
- 根据文本提示生成具有特定风格的图像，例如生成“一只在草地上奔跑的鹿，具有梵高的风格”。
- 通过结合 AD 损失和扩散模型的采样过程，实现高质量的风格特定生成。
纹理合成与扩展：
- 生成具有特定纹理特征的新图像，例如从一个小的纹理样本扩展出大面积的纹理。
- 通过控制纹理合成，可以实现纹理的语义对齐和精确布局。
多模态图像生成：
- 结合 ControlNet 等技术，实现基于多种模态（如深度图、边缘图）的风格特定图像生成。
- 例如，根据深度图生成具有特定风格的 3D 效果图像。