字节跳动推出新型蒸馏模型Hyper-SD：基于SD1.5和SDXL1.0基础模型提炼

1,036 0

字节跳动在推出文生图模型SDXL-Lightning后，又推出了新的蒸馏模型 Hyper-SD，它有效地结合了ODE轨迹保留和重构的优点，同时在步骤压缩过程中保持了接近无损的性能。与SDXL-Lightning一样，字节提供了从 SDXL Base 1.0 和 Stable-Diffusion v1-5 中提取的模型，包含了经过1步、2步、4步以及8步蒸馏过程训练得到的模型版本。

项目主页：https://hyper-sd.github.io
模型地址：https://huggingface.co/ByteDance/Hyper-SD
文生图Demo：https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
画图Demo：https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

首先，开发团队引入了轨迹分段一致性蒸馏技术，该技术能够在预定义的时间步长段内逐步进行一致性蒸馏，从而从更高阶的视角保留原始的ODE轨迹。其次，开发团队融入了人类反馈学习机制，旨在提升模型在低步数状态下的性能，并缓解蒸馏过程导致的性能损失。此外，开发团队还整合了分数蒸馏技术，以进一步提升模型在低步数生成方面的能力，并首次尝试利用统一的LoRA来支持所有步骤的推理过程。

字节跳动推出新型蒸馏模型Hyper-SD：基于SD1.5和SDXL1.0基础模型提炼

通过大量的实验和用户研究，开发团队证实Hyper-SD在SDXL和SD1.5模型上，从1到8步的推理过程中均展现出了卓越的性能。例如，在1步推理中，Hyper-SDXL的CLIP分数比SDXL-Lightning高出+0.68，Aes分数高出+0.51。

文生图Demo

画图Demo

主要功能和特点：

高效图像生成：Hyper-SD能够显著减少生成高质量图像所需的推断步骤。
轨迹分割一致性蒸馏（TSCD）：这是一种新颖的方法，它将时间步骤分割成多个段，并在每个段内进行一致性蒸馏，以保持原始ODE（常微分方程）轨迹。
人类反馈学习：通过结合人类对图像的美学偏好和现有的视觉感知模型，进一步提升模型在少量步骤下的性能。
统一的LoRA（Low-Rank Adaptation）：提供了一个统一的LoRA模型，支持所有步骤的推断，并尝试利用统一的LoRA来支持所有步骤的推断过程。
性能提升：在低步骤推断中，Hyper-SD在SDXL和SD1.5模型上均实现了最先进的性能。