SDXL-Lightning是由字节跳动发布的一款速度极快的文生图模型,它采用新型扩散模型蒸馏方法,优化扩散模型,能在短时间内高效生成分辨率为1024像素的高品质图像。
- 模型地址:https://huggingface.co/ByteDance/SDXL-Lightning
- Demo:https://huggingface.co/spaces/AP123/SDXL-Lightning
此模型是基于SDXL1.0基础模型提炼而出,字节提供了包含了经过1步、2步、4步以及8步蒸馏过程训练得到的模型版本。尤其值得一提的是2步、4步和8步蒸馏模型的生成效果令人惊叹;而1步模型则更具探索性和试验性。
主要功能:
- 快速生成:SDXL-Lightning能够在一步或几步内生成1024像素分辨率的高质量图像。
- 模式覆盖:模型能够生成多样化的图像,保持原始模型的风格和布局。
- 兼容性:模型支持LoRA(Low-Rank Adaptation)技术,可以轻松地与其他模型集成。
主要特点:
- 渐进式蒸馏:通过逐步减少生成步骤,模型能够学习如何更快地从噪声分布转换到数据分布。
- 对抗式训练:使用对抗网络来提高生成图像的质量,同时确保模型遵循正确的生成流程。
- 稳定训练技术:为了确保训练过程的稳定性,论文提出了多种技术,如在多个时间步长上训练学生网络,以及在训练过程中切换到x0预测。
工作原理:
- 渐进式蒸馏:首先,模型从128步直接蒸馏到32步,然后逐步减少到8步、4步、2步,最后到1步。在每个阶段,模型首先使用条件目标(保持ODE流程)进行训练,然后使用无条件目标(放松模式覆盖要求)进行微调。
- 对抗式训练:使用预训练的扩散模型的U-Net编码器作为鉴别器,通过对抗训练来确保学生模型的预测尽可能接近教师模型。
- 稳定训练:为了提高训练稳定性,模型在多个时间步长上进行训练,并在训练过程中调整时间步长的权重。
SDXL-Lightning是一个强大的文本到图像生成工具,它通过创新的训练方法和模型设计,实现了快速、高质量的图像生成,同时保持了生成内容的多样性和细节。
评论0