新型图像上采样模型Inf-DiT：高效地对任何分辨率的图像进行上采样，即提高图像的分辨率而不失细节

826 0

清华大学与智谱AI的研究人员推出新型图像上采样模型 Inf-DiT，它能够高效地对任何分辨率的图像进行上采样，即提高图像的分辨率而不失细节。在图像处理领域，上采样是一个重要的技术，它可以用于放大图像而不丢失重要信息，或者生成超高分辨率的图像，这对于设计工作、广告、海报制作等实际应用非常关键。例如，你有一个几百万像素的数码照片，但由于某些原因，你需要一张几亿像素的图像来打印巨幅海报。使用Inf-DiT，你可以将原始照片上采样到所需的超高分辨率，同时保持图像的清晰度和细节。

GitHub：https://github.com/THUDM/Inf-DiT
论文：https://arxiv.org/abs/2405.04312

近年来，扩散模型在图像生成领域展现出了卓越的性能。然而，由于生成超高分辨率图像（如 4096 × 4096 像素）时内存消耗会呈二次增长，因此生成的图像分辨率通常被限制在 1024×1024 像素。针对这一问题，开发人员提出了一种单向块注意力机制，该机制能在推理过程中自适应地调整内存开销，并有效处理全局依赖关系。基于这一模块，开发人员采用了 DiT 结构进行上采样，并开发了一个能够处理各种形状和分辨率图像的超分辨率模型。通过综合实验，开发人员证明了该模型在生成超高分辨率图像方面表现出色。与常见的 UNet 结构相比，Inf-DiT在生成 4096 × 4096 像素图像时能够节省超过 5 倍的内存。

新型图像上采样模型Inf-DiT：高效地对任何分辨率的图像进行上采样，即提高图像的分辨率而不失细节

主要功能和特点：

内存高效：Inf-DiT通过一种特殊的机制，称为单向块注意力（UniBA），显著降低了在上采样过程中的内存消耗。
任意分辨率上采样：与许多现有方法不同，Inf-DiT能够处理各种形状和分辨率的图像上采样任务。
SOTA性能：在机器和人类评估中，Inf-DiT在生成超高分辨率图像方面达到了最先进的性能。
节省内存：与常用的UNet结构相比，在使用4096×4096分辨率生成图像时，Inf-DiT可以节省超过5倍的内存。

工作原理：

单向块注意力（UniBA）：Inf-DiT将图像分割成多个块，并为这些块设计了一种单向的注意力机制，这意味着每个块在生成时只依赖于特定的几个邻近块，而不是整个图像。
扩散模型：Inf-DiT基于扩散模型，这是一种先进的图像生成技术，它通过逐步去噪的方式生成图像。
全局和局部一致性：通过使用CLIP图像嵌入来增强全局语义一致性，并引入了邻近低分辨率块的交叉注意力机制来增强局部一致性。