盲图像恢复(Blind Image Restoration, BIR)的主要挑战之一是处理测试时未知的退化,这需要模型具备高泛化能力。北京大学、InstantX团队和香港中文大学的研究人员提出了一种新的基于扩散模型(SDXL)的方法——即时参考图像恢复(InstantIR),该方法能够在推理过程中动态调整生成条件,从而有效应对这一挑战。它还支持通过文本引导进行修复,效果远超同类超分辨率模型。
- 项目主页:https://jy-joy.github.io/InstantIR
- GitHub:https://github.com/instantX-research/InstantIR
- 模型:https://huggingface.co/InstantX/InstantIR
例如,我们有一张因为压缩、噪声或其他原因而质量下降的图片,INSTANTIR能够在没有任何关于退化过程信息的情况下,恢复出高质量的图像。它可以将一张模糊的老照片恢复到高清晰度,或者去除由于相机抖动产生的模糊。
主要功能:
- 盲图像恢复:在不知道具体退化过程的情况下恢复图像的高质量细节。
- 文本引导的编辑:通过自然语言提示,实现对图像恢复过程中的高级语义编辑。
主要特点:
- 即时生成参考:INSTANTIR能够在生成过程中动态调整条件,即时生成参考图像,帮助恢复细节。
- 适应性强:通过调整生成条件,适应不同质量和不同退化程度的输入图像。
- 文本提示控制:允许用户通过文本提示来引导图像恢复过程,实现创造性的恢复。
InstantIR的工作原理
- 紧凑表示提取:InstantIR首先通过预训练的视觉编码器提取输入图像的紧凑表示。这一表示包含了输入图像的关键特征,为后续的生成过程提供了基础。
- 动态生成条件:在每个生成步骤中,提取的紧凑表示用于解码当前的扩散潜在状态,并实例化生成先验。这使得模型能够在推理过程中动态调整生成条件,从而更好地适应不同的退化情况。
- 鲁棒的生成条件:退化的输入通过参考进行编码,提供鲁棒的生成条件。这一过程确保了生成的图像在不同退化程度下都能保持高质量。
INSTANTIR的核心是三个模块:
- Degradation Content Perceptor (DCP):使用预训练的视觉编码器从退化图像中提取紧凑的表示。
- Instant Restoration Previewer:一个能够一步生成的蒸馏DPM,用于在每个生成步骤中解码当前扩散潜在变量,提供类似于原始输入的高级别特征的恢复预览。
- Latent Aggregator:将生成的参考预览与退化图像编码结合,提供稳健的生成条件。
INSTANTIR通过这些模块,利用扩散模型的生成过程,迭代地细化生成条件,以减少编码低质量图像时的错误,并主动与生成先验对齐,从而提高恢复质量。
适应输入质量的采样算法
研究人员观察到,生成参考的方差会随着退化强度的变化而波动。这一特性被进一步利用,开发了一种适应输入质量的采样算法。该算法能够根据输入图像的退化程度动态调整采样策略,从而提高生成图像的质量和稳定性。
实验结果
广泛的实验表明,InstantIR在多种退化条件下达到了最先进的性能,并提供了出色的视觉质量。具体来说:
- 视觉质量:InstantIR生成的图像在视觉上更加自然和逼真,能够有效恢复各种退化类型的图像。
- 泛化能力:通过动态调整生成条件,InstantIR在处理未知退化时表现出更强的泛化能力。
- 创造性恢复:除了恢复极端退化的图像,InstantIR还具备创造性恢复功能,能够根据文本描述调节生成参考,生成具有创意效果的图像。
评论0