美国东北大学的研究人员发布论文《Distilling Diversity and Control in Diffusion Models》,探讨了如何在保持计算效率的同时,将原始扩散模型的多样性和控制能力转移到高效的蒸馏模型中。研究的核心是解决蒸馏扩散模型在减少推理步骤时出现的模式坍塌(mode collapse)问题,即不同初始噪声种子生成的输出在视觉上过于相似,导致样本多样性降低。

研究背景
- 背景介绍: 这篇文章的研究背景是扩散模型在生成高质量图像方面表现出色,但其计算需求高,需要数十甚至上百个连续的去噪步骤,这在部署时存在显著挑战。扩散蒸馏技术通过减少所需的推理步骤来提高效率,但代价是模式崩溃,即不同的初始噪声种子产生相似的输出,导致生成多样性和计算效率之间的权衡。
- 研究内容: 该问题的研究内容包括如何在扩散模型的蒸馏过程中保留多样性和控制能力。具体来说,文章探讨了如何将基础模型的多样性和控制机制蒸馏到高效的蒸馏模型中。
- 文献综述: 该问题的相关工作包括扩散蒸馏技术的进展,如渐进蒸馏、对抗性扩散蒸馏、分布匹配蒸馏等。此外,概念表示的研究也涉及文本反转、DreamBooth、Custom Diffusion等技术,这些技术在扩散模型中的应用提高了生成图像的多样性和可控性。

研究方法
这篇论文提出了控制蒸馏和多样性蒸馏的方法来解决扩散模型蒸馏过程中多样性和控制能力丢失的问题。具体来说,
- 控制蒸馏: 通过实验验证基础模型上训练的控制机制(如Concept Sliders、Custom Diffusion和DreamBooth)可以直接应用于蒸馏模型,反之亦然。这表明尽管模型权重被修改,但概念表示仍然保留。
- DT-Visualization: 引入了一种新的分析和调试技术,称为DT-Visualization(Diffusion Target Visualization),用于揭示扩散模型在任何中间步骤对最终输出的预测。通过这一技术,作者分析了模型在不同去噪步骤中的表现,发现初始步骤对输出多样性有显著影响。
- 多样性蒸馏: 提出了一种混合推理方法,策略性地在前几个关键步骤中使用基础模型,然后切换到蒸馏模型进行高效的细节完善。这种方法旨在直接解决蒸馏模型在早期去噪步骤中的模式崩溃问题。
实验设计
- 数据集: 使用COCO-10k和COCO-30k数据集进行实验,评估生成图像的多样性和分布多样性。
- 实验设置: 对多个蒸馏模型变体(如SDXL-Turbo、SDXL-Lightning、SDXL-LCM和SDXL-DMD2)进行实验,训练Concept Sliders、Custom Diffusion和DreamBooth,并使用LoRA优化。
- 参数配置: 在混合推理方法中,选择在前一个关键步骤中使用基础模型,然后切换到蒸馏模型。通过实验确定最佳的超参数配置。
结果与分析
- 控制蒸馏: 实验结果表明,从基础模型到蒸馏模型的控制机制转移效果良好,验证了概念表示在蒸馏过程中被保留。
- DT-Visualization: 通过DT-Visualization技术发现,初始去噪步骤对输出多样性有显著影响,而后续步骤主要用于细节完善。
- 多样性蒸馏: 实验结果显示,混合推理方法不仅恢复了蒸馏过程中丢失的多样性,而且超过了原始基础模型的多样性,同时保持了蒸馏推理的计算效率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...