现实世界中的图像恢复(IR)面临着显著的挑战,主要是缺乏高容量模型和全面的数据集。为了解决这些问题,中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司和中国科学技术大学的研究人员提出了一种双重策略:GenIR和DreamClear。DreamClear是一个高容量真实世界图像恢复模型,它结合了隐私安全的数据处理流程(GenIR)和先进的扩散变换器(DiT)技术,以实现对低质量(Low Quality, LQ)图像的高质量恢复。
- GitHub:https://github.com/shallowdream204/DreamClear
- 模型:https://huggingface.co/shallowdream204/DreamClear
例如,我们有一张因为压缩、噪声或模糊等原因导致质量下降的照片,DreamClear模型能够利用其先进的图像恢复技术,将这张低质量图片恢复成高清晰度、细节丰富的高质量(High Quality, HQ)图像。例如,可以处理一张因手抖而模糊的照片,恢复其清晰度,或者提升一张老旧照片的分辨率,使其看起来像是新拍摄的。
GenIR:大规模高质量数据集的构建
1、双提示学习管道:
- 图像-文本对构建:通过自动化的图像-文本对生成方法,构建高质量的图像-文本对。这一过程避免了繁琐的数据爬取,确保了版权合规性和隐私安全。
- 基于双提示的微调:利用生成的图像-文本对,对预训练的多模态模型进行微调,以提高模型的泛化能力和适应性。
- 数据生成与过滤:通过生成和过滤机制,确保最终数据集的质量和多样性。这一过程包括去除低质量图像和重复数据,确保数据集的可靠性和实用性。
2、大规模数据集:
- GenIR最终生成了一个包含一百万张高质量图像的大规模数据集,显著提高了数据集的容量和多样性,为训练更大的模型提供了基础。
DreamClear:基于Dit的图像恢复模型
1、模型架构:
- 基于DiT的扩散模型:DreamClear利用了扩散变压器(DiT)的强大生成能力,结合文本到图像(T2I)扩散模型的生成先验,实现了高质量的图像恢复。
- 多模态大语言模型(MLLMs):DreamClear整合了多模态大语言模型的感知能力,增强了模型对复杂图像内容的理解和恢复效果。
2、自适应调制器混合(MoAM):
- 令牌级退化先验:MoAM采用令牌级的退化先验,动态整合各种恢复专家,扩展了模型处理不同退化类型的能力。
- 动态整合:通过动态调制器混合,DreamClear能够灵活应对多种现实世界中的图像退化,提高了模型的鲁棒性和适应性。
主要特点:
- 高容量模型:DreamClear是一个高容量模型,能够处理真实世界中复杂多样的图像退化问题。
- DiT:利用DiT的生成先验和多模态大型语言模型(MLLMs)的感知能力,实现逼真的图像恢复。
- 混合自适应调制器(MoAM):通过动态整合多种恢复专家,适应不同的退化情况,提高模型对复杂退化的处理能力。
- 无需训练:GenIR流程无需额外训练,可以自动生成用于训练的数据集。
工作原理:
- GenIR流程:GenIR通过三阶段流程(图像-文本对构建、双提示微调、数据生成与过滤)自动生成大规模的高质量图像数据集。
- 双分支架构:DreamClear采用双分支架构,包括LQ分支和参考分支,分别处理低质量图像和生成参考图像。
- 控制形式(ControlFormer):针对DiT优化的控制结构,结合LQ特征和参考特征,提供有效的空间控制。
- MoAM机制:通过提取 token-wise 退化表示,并基于混合专家(MoE)结构动态整合各种恢复专家,增强模型对不同退化严重性的适应性。
实验结果
详尽的实验验证了GenIR和DreamClear的有效性:
- 数据集质量:GenIR生成的数据集在质量和多样性方面均优于现有的小规模数据集,为训练高容量模型提供了有力支持。
- 恢复效果:DreamClear在多种图像恢复任务中表现出色,实现了照片级的恢复效果,显著优于现有的方法。
- 鲁棒性:通过自适应调制器混合(MoAM),DreamClear在处理多样化的现实世界退化时表现出更高的鲁棒性和适应性。
应用前景
GenIR和DreamClear的双重策略为现实世界图像恢复提供了一个全面的解决方案。这一技术不仅在学术研究中具有重要意义,还为实际应用提供了强大的支持。未来,这一技术有望在图像修复、视频处理、医疗影像分析等多个领域得到广泛应用,为用户提供更高品质的图像恢复服务。
评论0