Jasper推出新型蒸馏方法Flash Diffusion:高效、快速、多用途且与LoRA兼容,旨在加速预训练扩散模型图像生成

Jasper推出了一种高效、快速、多用途且与LoRA兼容,旨在加速预训练扩散模型生成的蒸馏方法Flash Diffusion,该方法在COCO 2014和COCO 2017数据集上,针对少量步骤的图像生成,在FID分数和CLIP-Score指标上达到了先进水平的表现,同时仅需数小时的GPU训练时间以及比现有方法更少的可训练参数。除了效率之外,该方法的多用途性也在多个任务中得到展示,包括文本到图像转换、图像修复、换脸、超分辨率处理,以及使用不同扩散模型骨干网络的应用,无论是基于UNet的去噪器(如SD1.5、SDXL)还是DiT(如Pixart-α),以及各类适配器。在所有情况下,该方法都能显著减少采样步骤的数量,同时保持极高的图像生成质量。总之,Flash Diffusion 是一个能够显著提高图像生成速度的技术,同时保持了图像的高质量,这使得它在需要快速生成图像的各种应用中都非常有用。

例如,你有一个魔法画笔,开始时它只是一团混乱的颜色(相当于高斯噪声),但随着你不断使用这个画笔,它逐渐展现出清晰的图像。这个过程就像是扩散模型的工作方式,它们通过逐步去除噪声来生成图像。但是,这个过程很慢,需要很多次的尝试和错误。而“Flash Diffusion”就是让这个过程变得非常快速,几乎瞬间就能得到你想要的图像。

主要功能:

  • 加速图像生成过程,减少生成高质量图像所需的迭代步骤。

主要特点:

  1. 快速:通过特殊的训练方法,Flash Diffusion 能够在短时间内生成图像。
  2. 高效:相比于原始的扩散模型,Flash Diffusion 需要的训练资源更少。
  3. 多用途:适用于多种图像生成任务,如文本到图像的转换、图像修复、超分辨率等。

工作原理:

  1. 学生模型:训练一个学生模型来预测在几步迭代后,教师模型(一个已经训练好的扩散模型)将如何去除噪声。
  2. 对抗性目标:使用对抗性训练,使得学生模型生成的图像难以与真实数据分布区分开来。
  3. 分布匹配:确保学生模型生成的样本与教师模型学习到的数据分布保持一致。

具体应用场景:

  1. 文本到图像:根据文本描述快速生成图像。
  2. 图像修复:快速填充图像中的缺失或损坏部分。
  3. 超分辨率:提高图像分辨率,同时保持图像质量。
  4. 面部交换:在图像或视频中快速替换人物的面部。
0

评论0

没有账号?注册  忘记密码?