SDXL Turbo: 实时文本到图像生成模型

Stability AI于北京时间2023年11月28日推出了新的开源文生图模型 SDXL Turbo,SDXL Turbo 是在 SDXL 1.0 的基础上采用新的蒸馏方案,让模型只需要一步就可以生成高质量图像。

SDXL Turbo 此次最重要的提升就是速度,不过可惜的是目前只能生成 512x512 的图像,但速度完全完全碾压其他模型,像是近期大火的 LCM-XL。可惜的是适配性上远不如 LCM-XL,对一些细节可能表现的不够好,例如人的手指、面部表情等,拟真度方面也完全无法与 SDXL 模型相比。

SDXL Turbo 是基于 SDXL 1.0 开发而成,并且使用了一种全新的对抗扩散蒸馏技术(ADD),将图像所需的生成步骤从 50 减少至 1—4 步。ADD 通过两个 loss 来进行蒸馏:一个是 adversarial loss,这里是定义一个 discriminator 来辨别生成的图像和真实的图像;二是采用常规的 distillation loss,让 student 的输出和 teacher 的输出一致,具体技术细节可参考论文。

论文地址:https://stability.ai/research/adversarial-diffusion-distillation

对抗扩散蒸馏的优势

SDXL Turbo采用扩散模型技术的最新进展,在SDXL 1.0的基础上进行迭代,并为文本到图像模型实现了一种新的蒸馏技术:对抗扩散蒸馏。通过结合ADD,SDXL Turbo获得了与GAN(生成对抗网络)共享的许多优势,例如单步图像输出,同时避免了在其他蒸馏方法中经常观察到的伪影或模糊。详细介绍此模型新蒸馏技术的SDXL Turbo研究论文可在此处获取。

与其他扩散模型相比的性能优势

SDXL Turbo在SDXL 1.0的基础上迭代,并为文本到图像模型实施了一种新的蒸馏技术:对抗性扩散蒸馏。通过整合ADD,SDXL Turbo获得了与生成对抗网络(GANs)共享的许多优势,例如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。

模型下载地址:https://huggingface.co/stabilityai/sdxl-turbo

0

评论0

没有账号?注册  忘记密码?