深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

新技术1个月前发布 小马良
93 0

深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法,用于将参考图像视觉特征(如风格、纹理、外观)转移到生成的图像中。该方法通过计算预训练扩散模型中的自注意力特征之间的差异,优化生成图像以实现高质量的视觉特征迁移。AD 方法的核心在于提出了一种新的注意力蒸馏损失函数(AD Loss),通过反向传播优化生成图像,从而在多种图像合成任务中实现风格、外观和纹理的忠实再现。

例如,在艺术风格迁移任务中,给定一张梵高的《星月夜》作为参考风格图像,AD 方法可以将这种独特的绘画风格应用到其他内容图像上,生成具有梵高风格的新图像,同时保留原始内容的语义结构。

深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

主要功能

  1. 风格和外观迁移:AD 方法能够将参考图像的风格或外观特征迁移到新的内容图像上,实现高质量的艺术风格迁移和外观转移。
  2. 风格特定的文本到图像生成:通过将 AD 损失整合到扩散模型的采样过程中,可以根据文本提示生成具有特定风格的图像。
  3. 纹理合成与扩展:AD 方法可以用于纹理合成任务,包括控制纹理合成和纹理扩展,生成具有特定纹理特征的新图像。
  4. 多种视觉特征迁移:AD 方法提供了一个统一的框架,适用于多种视觉特征迁移任务,如风格迁移、外观迁移、纹理合成等。
深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

主要特点

  1. 注意力蒸馏损失函数:AD 方法提出了一种新的损失函数,通过计算目标图像和参考图像之间的注意力特征差异,优化生成图像以实现视觉特征的忠实再现。
  2. 优化与采样结合:AD 方法不仅可以通过优化生成图像,还可以整合到扩散模型的采样过程中,实现加速合成和更广泛的应用。
  3. 内容保持优化:通过结合内容损失和注意力蒸馏损失,AD 方法能够在迁移视觉特征的同时保持目标图像的语义结构。
  4. 广泛的适用性:AD 方法适用于多种图像合成任务,包括风格迁移、外观迁移、纹理合成和风格特定的文本到图像生成。
深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

工作原理

  1. 注意力特征提取
    • 利用预训练的扩散模型(如 Stable Diffusion)中的自注意力模块,提取参考图像和目标图像的自注意力特征(K 和 V)。
    • 通过自注意力机制,计算目标图像的查询(Q)与参考图像的 K 和 V 之间的注意力输出,作为理想风格化结果。
  2. 注意力蒸馏损失函数
    • 定义 AD 损失为理想注意力输出与当前注意力输出之间的 L1 距离:
    • 通过反向传播优化目标图像的潜在代码,逐步减少目标 Q 和参考 K 之间的差异,从而提高风格化精度。
  3. 内容保持优化
    • 在优化过程中,结合内容损失(基于目标图像的 Q 和参考图像的 Q_c 的 L1 距离):
    • 总损失为:
    • 通过优化总损失,生成的图像既保留了目标内容,又迁移了参考图像的视觉特征。
  4. 注意力蒸馏引导采样
    • 将 AD 损失整合到扩散模型的采样过程中,通过优化每个采样步骤的潜在代码,实现加速合成。
    • 使用 Adam 优化器自动管理优化强度,避免手动调整指导强度的复杂性。
深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中

具体应用场景

  1. 艺术风格迁移
    • 将著名艺术家的风格(如梵高、莫奈)应用到普通照片或绘画作品上,生成具有特定艺术风格的新图像。
    • 例如,将梵高的《星月夜》风格应用到城市夜景照片上。
  2. 外观迁移
    • 在图像编辑中,将一个对象的外观特征迁移到另一个对象上,实现零样本外观迁移。
    • 例如,将一只蝴蝶的外观迁移到另一只蝴蝶上,保持其结构不变。
  3. 风格特定的文本到图像生成
    • 根据文本提示生成具有特定风格的图像,例如生成“一只在草地上奔跑的鹿,具有梵高的风格”。
    • 通过结合 AD 损失和扩散模型的采样过程,实现高质量的风格特定生成。
  4. 纹理合成与扩展
    • 生成具有特定纹理特征的新图像,例如从一个小的纹理样本扩展出大面积的纹理。
    • 通过控制纹理合成,可以实现纹理的语义对齐和精确布局。
  5. 多模态图像生成
    • 结合 ControlNet 等技术,实现基于多种模态(如深度图、边缘图)的风格特定图像生成。
    • 例如,根据深度图生成具有特定风格的 3D 效果图像。
© 版权声明

相关文章

暂无评论

none
暂无评论...