Yandex Research推出分层蒸馏框架SWD：加速扩散模型（如FLUX和SD3.5）的生成过程

图像模型10个月前发布小马良

498 0

Yandex Research 推出了一种名为 “Scale-wise Distillation of Diffusion Models (SWD)” 的新型框架，通过分层采样策略加速扩散模型（DMs）的生成过程。与传统的全分辨率模型相比，SWD 在保持甚至提高图像质量的同时，实现了显著的速度提升（2.5 倍至 10 倍）。

传统扩散模型的局限性

传统的扩散模型（如FLUX和SD3.5）在生成高分辨率图像时，需要在目标分辨率下逐步去噪，生成高质量图像。然而，这个过程非常耗时，通常需要 20-50 个去噪步骤。例如，生成一张 1024×1024 的图像可能需要数十个步骤，每个步骤都需要大量的计算资源。

SWD 框架通过在扩散过程中逐步增加图像的分辨率，而不是一开始就从高分辨率开始，从而显著减少了计算量和生成时间。具体来说，SWD 从较低的分辨率（如 256×256）开始，逐步增加到目标分辨率（如 1024×1024），从而在更少的步骤内生成高质量的图像。

项目主页：https://yandex-research.github.io/swd
GitHub：https://github.com/yandex-research/swd
Demo：https://huggingface.co/spaces/dbaranchuk/Scale-wise-Distillation

Yandex Research 目前发布了两个版本的 SWD，分别是 Medium（2B）和 Large（8B），它们均基于 SD3.5。实验结果表明，SWD 在保持甚至提高图像质量的同时，实现了显著的速度提升。具体来说：

速度提升：与传统的全分辨率模型相比，SWD 实现了 2.5 倍至 10 倍的速度提升。
图像质量：通过创新的训练方法和损失函数，SWD 确保生成图像的质量与全分辨率模型相当甚至更好。

模型	Scales	Sigmas
SwD 2B, 6 steps	32, 48, 64, 80, 96, 128	1.0000, 0.9454, 0.8959, 0.7904, 0.7371, 0.6022, 0.0000
SwD 2B, 4 steps	32, 64, 96, 128	1.0000, 0.9454, 0.7904, 0.6022, 0.0000
SwD 8B, 6 steps	32, 48, 64, 80, 96, 128	1.0000, 0.9454, 0.8959, 0.7904, 0.7371, 0.6022, 0.0000
SwD 8B, 4 steps	64, 80, 96, 128	1.0000, 0.8959, 0.7371, 0.6022, 0.0000

SWD 的核心设计

SWD 主要依赖于两个关键超参数：scales 和 sigmas。

scales 超参数：定义了生成过程中使用的空间分辨率序列，比如从较低的分辨率（如 256×256）逐步过渡到最终的目标分辨率（如 1024×1024），使得模型能够在早期阶段专注于全局结构，而在后期阶段聚焦于细节优化。
sigmas 超参数：控制扩散过程中每一步应用的噪声水平，相当于调整扩散的时间步长，有助于更高效地完成去噪过程，并减少伪影。

主要功能

1. 加速扩散模型的生成

分层采样策略：SWD 通过分层采样策略，在更少的步骤内生成高质量的图像，显著降低了计算成本。
显著的速度提升：与传统的全分辨率模型相比，SWD 实现了 2.5 倍至 10 倍的速度提升，大大减少了生成高分辨率图像所需的时间。

2. 保持生成质量

创新的训练方法：SWD 通过创新的训练方法和损失函数，确保生成图像的质量与全分辨率模型相当甚至更好。
优化的生成过程：通过分层采样和时间表偏移，SWD 在减少计算量的同时，保持了生成图像的高质量。

3. 兼容多种扩散模型

通用性：SWD 可以应用于现有的扩散模型架构，如基于 Transformer 的模型，具有良好的通用性。
灵活的扩展：SWD 框架可以轻松扩展到不同的模型和任务中，适用于多种应用场景。

主要特点

1. 分层采样策略

逐步增加分辨率：在扩散过程中，SWD 从低分辨率开始，逐步增加到高分辨率，从而在更少的步骤内生成高质量的图像。
减少计算量：通过逐步增加分辨率，SWD 显著减少了计算量和生成时间。

2. 时间表偏移

减少伪影：通过将扩散过程中的时间步调整到更高的噪声水平，SWD 减少了上采样带来的伪影，进一步优化了生成图像的质量。

3. Patch Distribution Matching (PDM) 损失

优化生成质量：SWD 引入了一种新的损失函数 PDM，通过最小化空间 token 分布之间的距离来优化生成图像的质量。
分布匹配：PDM 损失确保生成图像与目标图像在空间分布上高度一致，从而提升生成图像的视觉效果。

4. 训练与生成的双重优化

快速生成：SWD 通过训练一个同时具备上采样能力的模型，提高了生成图像的速度。
高质量上采样：通过分布匹配损失和 GAN 损失等优化目标，SWD 确保生成图像的质量与全分辨率模型相当甚至更好。

工作原理

1. 分层采样

时间表和分辨率表：SWD 定义了一个时间表和一个对应的分辨率表。在每个去噪步骤中，模型从低分辨率的噪声图像开始，逐步增加分辨率，最终生成高分辨率的清晰图像。
逐步去噪：通过逐步增加分辨率，SWD 在更少的步骤内完成去噪过程，显著减少了计算量。

2. 时间表偏移

调整时间步：通过将扩散过程中的时间步调整到更高的噪声水平，SWD 减少了上采样带来的伪影，进一步优化了生成图像的质量。

3. PDM 损失

最小化分布距离：通过最小化生成图像和目标图像的空间 token 分布之间的距离，PDM 损失优化了生成图像的质量。
提升视觉效果：PDM 损失确保生成图像与目标图像在空间分布上高度一致，从而提升生成图像的视觉效果。

4. 训练过程

合成数据训练：SWD 使用合成数据进行训练，通过分布匹配损失和 GAN 损失等优化目标，训练一个能够同时进行快速生成和高质量上采样的模型。
双重优化：SWD 不仅优化了生成过程，还通过训练一个同时具备上采样能力的模型，提高了生成图像的质量。

图像模型 # FLUX # SD3.5 # SWD # Yandex Research # 分层蒸馏框架

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

对角蛇形扫描自回归图像生成框架DAR：用于生成高质量图像的新型自回归模型

对角蛇形扫描自回归图像生成框架DAR：用于生成高质量图像的新型自回归模型

图像模型 # DAR # 自回归模型

9个月前

02500

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

新技术 # Chipmunk # DiT模型 # FLUX

9个月前

03360

新型图像训练自由方法 IP-Composer：从多个视觉概念中合成图像

新型图像训练自由方法 IP-Composer：从多个视觉概念中合成图像

图像模型 # IP-Composer

8个月前

04030

小红书推出图像生成模型StoryMaker：不仅能保持面部一致性，还能保持服装、发型和身体的一致性，从而通过一系列图像促进故事的创作

小红书推出图像生成模型StoryMaker：不仅能保持面部一致性，还能保持服装、发型和身体的一致性，从而通过一系列图像促进故事的创作

图像模型 # StoryMaker # 小红书

11个月前

05080

暂无评论

none

暂无评论...