字节跳动在推出文生图模型SDXL-Lightning后,又推出了新的蒸馏模型Hyper-SD,它有效地结合了ODE轨迹保留和重构的优点,同时在步骤压缩过程中保持了接近无损的性能。与SDXL-Lightning一样,字节提供了从 SDXL Base 1.0 和 Stable-Diffusion v1-5 中提取的模型,包含了经过1步、2步、4步以及8步蒸馏过程训练得到的模型版本。
- 项目主页:https://hyper-sd.github.io
- 模型地址:https://huggingface.co/ByteDance/Hyper-SD
- 文生图Demo:https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
- 画图Demo:https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble
首先,开发团队引入了轨迹分段一致性蒸馏技术,该技术能够在预定义的时间步长段内逐步进行一致性蒸馏,从而从更高阶的视角保留原始的ODE轨迹。其次,开发团队融入了人类反馈学习机制,旨在提升模型在低步数状态下的性能,并缓解蒸馏过程导致的性能损失。此外,开发团队还整合了分数蒸馏技术,以进一步提升模型在低步数生成方面的能力,并首次尝试利用统一的LoRA来支持所有步骤的推理过程。
通过大量的实验和用户研究,开发团队证实Hyper-SD在SDXL和SD1.5模型上,从1到8步的推理过程中均展现出了卓越的性能。例如,在1步推理中,Hyper-SDXL的CLIP分数比SDXL-Lightning高出+0.68,Aes分数高出+0.51。
文生图Demo
画图Demo
主要功能和特点:
- 高效图像生成:Hyper-SD能够显著减少生成高质量图像所需的推断步骤。
- 轨迹分割一致性蒸馏(TSCD):这是一种新颖的方法,它将时间步骤分割成多个段,并在每个段内进行一致性蒸馏,以保持原始ODE(常微分方程)轨迹。
- 人类反馈学习:通过结合人类对图像的美学偏好和现有的视觉感知模型,进一步提升模型在少量步骤下的性能。
- 统一的LoRA(Low-Rank Adaptation):提供了一个统一的LoRA模型,支持所有步骤的推断,并尝试利用统一的LoRA来支持所有步骤的推断过程。
- 性能提升:在低步骤推断中,Hyper-SD在SDXL和SD1.5模型上均实现了最先进的性能。
工作原理:
- TSCD:通过将时间步骤分割成多个段,并对每个段进行一致性蒸馏,逐步减少段的数量,以实现全时间一致性。
- 人类反馈学习:利用人类对图像的偏好反馈来优化加速模型,调整ODE轨迹以更适合少步骤推断。
- 分数蒸馏:使用分数蒸馏来进一步提升模型的单步生成性能,通过统一的LoRA实现理想的全时间一致性模型。
评论0