无需微调的推理范式FreeScale:通过 尺度融合 实现更高分辨率的图片生成

视觉扩散模型(Diffusion Models)在图像和视频生成领域取得了显著进展,但由于缺乏高分辨率数据和计算资源的限制,它们通常只能在有限的分辨率下进行训练。这阻碍了其生成高保真图像或视频的能力。最近的研究探索了无需微调的策略,以释放预训练模型在更高分辨率视觉生成中的潜力。然而,这些方法仍然容易生成低质量的视觉内容,并伴随重复模式。关键障碍在于,当模型生成超出其训练分辨率的视觉内容时,高频信息的不可避免增加会导致累积误差,从而产生不希望的重复模式。

为了解决这一挑战,南洋理工大学、阿里巴巴和复旦大学的研究人员提出了 FreeScale,一种无需微调的推理范式,通过 尺度融合 实现更高分辨率的视觉生成。具体而言,FreeScale 处理来自不同感受野尺度的信息,并通过提取所需频率分量进行融合。大量实验验证了该范式在扩展图像和视频模型更高分辨率生成能力方面的优越性。值得注意的是,与之前表现最佳的方法相比,FreeScale 首次解锁了 8k 分辨率图像 的生成。

例如,考虑一个预训练的扩散模型,它原本只能生成最高1024×1024分辨率的图像。使用FreeScale方法,该模型能够生成高达8192×8192分辨率的图像,而无需任何额外的调优步骤。

方法论

FreeScale 的整体框架

定制自级联上采样

  • 初始去噪:FreeScale 从纯高斯噪声开始,逐步使用训练分辨率进行去噪。然后通过 VAE 解码器生成图像,并上采样以获得更高分辨率的图像。
  • 前向噪声引入:我们逐渐向该高分辨率图像的潜在表示中添加噪声,并将这种前向噪声引入高分辨率潜在表示的去噪过程中,使用受限的扩张卷积。这种方法确保了高频细节的逐步增强,避免了直接放大带来的失真。
  • 区域感知细节控制:对于中间潜在步骤,我们通过应用基于图像掩码的区域感知细节控制来增强高频细节。例如,在人脸区域,我们可以增加高频细节的权重,而在背景区域减少权重,从而生成更加自然的图像。

尺度融合

  • 全局与局部注意力:在去噪过程中,我们将自注意力层调整为全局和局部注意力结构。全局注意力捕捉图像的整体结构,而局部注意力则专注于局部细节。
  • 高斯模糊融合:通过使用高斯模糊,我们将全局注意力中的高频细节与局部注意力中的低频语义进行融合,作为自注意力层的最终输出。这种融合方式有效地平衡了高频和低频信息,避免了重复模式的产生。

放大细节

FreeScale 可能会基于模型学到的先验知识,在低分辨率下重新生成原始模糊区域。例如,在 8k 分辨率下,原本混乱且模糊的脸部可以清晰地勾勒出来,展现出精细的面部特征和表情。这种能力使得 FreeScale 在处理复杂场景时表现出色,能够恢复出更多的细节和纹理。

主要功能和特点

  • 无调优的高分辨率生成:FreeScale能够在不进行任何模型调优的情况下,直接生成高分辨率的图像和视频。
  • 尺度融合:通过处理不同尺度的信息并融合所需的频率成分,FreeScale在保持整体结构合理性的同时,确保了局部对象的质量。
  • 提高视觉质量:与现有方法相比,FreeScale在生成8K分辨率图像时,能够获得更优越的视觉质量,并且推理时间更短。

工作原理

FreeScale的工作原理包括以下几个关键步骤:

  1. 定制的自级联上采样:从纯高斯噪声开始,逐步去噪以使用训练分辨率生成图像,然后通过上采样获得更高分辨率的图像。
  2. 受限的扩张卷积:使用扩张卷积来增大感受野,但仅限于UNet的下块和中块,以避免在上块中引入混乱的纹理。
  3. 尺度融合:在去噪过程中,自注意力层被适应为全局和局部注意力结构。通过高斯模糊,从全局注意力中融合高频细节,从局部注意力中融合低频语义,作为自注意力层的最终输出。

定性比较

图像定性比较

与其他基线方法相比,FreeScale 生成的 2048x2048 和 4096x4096 分辨率图像具有更好的内容一致性和局部细节。例如,在生成的人脸图像中,FreeScale 能够清晰地再现眼睛、鼻子、嘴巴等面部特征,而其他方法可能会出现模糊或失真的情况。

视频定性比较

在视频生成任务中,FreeScale 表现尤为出色。其他基线方法在 4 倍分辨率(640x1024)的视频生成中失败,而 FreeScale 有效地生成了高保真度的更高分辨率视频。特别是在动态场景中,FreeScale 生成的视频保持了帧间的一致性和流畅性,避免了常见的伪影和重复模式。

灵活的细节级别控制

FreeScale 还支持灵活的细节级别控制。通过在特定区域(如 Griffoins 区域)增加系数权重,并在其他区域减少系数权重,可以生成更加个性化的结果。例如,在生成动物图像时,可以在动物的关键部位(如羽毛、毛发)增加高频细节的权重,从而生成更加逼真的纹理,而在背景区域减少权重,避免过度锐化。

0

评论0

没有账号?注册  忘记密码?