Diffusion-4K：利用潜在扩散模型（如SD3、Flux）进行超高清（4K）图像生成

594 0

北京航空航天大学和美团的研究人员推出 Diffusion-4K，即利用潜在扩散模型（Latent Diffusion Models）进行超高清（4K）图像合成。该研究的核心目标是直接生成高质量的4K图像，同时解决当前潜在扩散模型在高分辨率图像生成中的局限性，特别是在细节丰富度和计算资源消耗方面。

GitHub：https://github.com/zhang0jhon/diffusion-4k

例如，给定一个文本提示：“一只金毛猎犬幼崽在雪地里玩耍，它们的头从雪中探出来，身上覆盖着雪花。” 传统的扩散模型可能在生成高分辨率图像时出现细节丢失或计算资源不足的问题。而 Diffusion-4K 通过其提出的波形细调方法（Wavelet-based Fine-tuning, WLF）和分区变分自编码器（Partitioned VAE），能够生成具有丰富细节和高质量的4K图像，同时避免内存不足（OOM）的问题。

主要功能

Diffusion-4K 的主要功能包括：

高质量4K图像生成：直接生成具有丰富细节和高质量的4K图像。
高效的内存管理：通过分区变分自编码器（Partitioned VAE）解决高分辨率图像生成中的内存不足问题。
细节增强：利用波形细调方法（WLF）增强图像的高频细节，提升图像的视觉质量。
文本提示对齐：生成的图像能够高度符合文本提示的内容，确保语义一致性。
综合评估：引入新的评估指标（如GLCM Score和Compression Ratio），对4K图像的细节和质量进行全面评估。

主要特点

Aesthetic-4K基准：构建了一个包含高质量4K图像和精确文本描述的数据集，用于评估超高清图像生成模型。
波形细调方法（WLF）：通过波形变换分解低频和高频成分，同时优化低频信息和高频细节，显著提升4K图像的细节表现。
分区变分自编码器（Partitioned VAE）：通过增加下采样因子（F=16），有效减少内存消耗，支持直接在4096×4096分辨率上训练和生成图像。
兼容性：WLF方法与多种潜在扩散模型（如SD3和Flux）兼容，无需重新训练或微调VAE，确保与现有模型的兼容性。
综合评估指标：除了传统的FID、Aesthetics和CLIPScore外，还引入了GLCM Score和Compression Ratio，全面评估4K图像的细节和质量。

工作原理

Diffusion-4K 的工作原理可以分为以下几个关键部分：

Aesthetic-4K基准：
- 构建了一个高质量的4K图像数据集，包含12,015张训练图像和2,781张评估图像，所有图像均具有高分辨率和丰富的细节。
- 引入新的评估指标GLCM Score和Compression Ratio，用于评估4K图像的细节丰富度和质量。
分区变分自编码器（Partitioned VAE）：
- 通过增加下采样因子（F=16），将图像从像素空间压缩到潜在空间，显著减少内存消耗。
- 在VAE的编码器中使用扩张卷积，在解码器中使用分区上采样，确保与预训练的潜在扩散模型兼容。
波形细调方法（WLF）：
- 利用波形变换（DWT）分解潜在特征的低频近似和高频细节。
- 在训练目标中同时优化低频信息和高频细节，提升4K图像的细节表现。
- 通过简单的替换重建目标，WLF方法可以无缝集成到传统的噪声预测方法中。