高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

图像模型2个月前更新小马良

270 0

现实世界中的图像恢复（IR）面临着显著的挑战，主要是缺乏高容量模型和全面的数据集。为了解决这些问题，中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司和中国科学技术大学的研究人员提出了一种双重策略：GenIR和DreamClear。DreamClear是一个高容量真实世界图像恢复模型，它结合了隐私安全的数据处理流程（GenIR）和先进的扩散变换器（DiT）技术，以实现对低质量（Low Quality, LQ）图像的高质量恢复。

GitHub：https://github.com/shallowdream204/DreamClear
模型：https://huggingface.co/shallowdream204/DreamClear

例如，我们有一张因为压缩、噪声或模糊等原因导致质量下降的照片，DreamClear模型能够利用其先进的图像恢复技术，将这张低质量图片恢复成高清晰度、细节丰富的高质量（High Quality, HQ）图像。例如，可以处理一张因手抖而模糊的照片，恢复其清晰度，或者提升一张老旧照片的分辨率，使其看起来像是新拍摄的。

高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

GenIR：大规模高质量数据集的构建

1、双提示学习管道：

图像-文本对构建：通过自动化的图像-文本对生成方法，构建高质量的图像-文本对。这一过程避免了繁琐的数据爬取，确保了版权合规性和隐私安全。
基于双提示的微调：利用生成的图像-文本对，对预训练的多模态模型进行微调，以提高模型的泛化能力和适应性。
数据生成与过滤：通过生成和过滤机制，确保最终数据集的质量和多样性。这一过程包括去除低质量图像和重复数据，确保数据集的可靠性和实用性。

2、大规模数据集：

GenIR最终生成了一个包含一百万张高质量图像的大规模数据集，显著提高了数据集的容量和多样性，为训练更大的模型提供了基础。

DreamClear：基于Dit的图像恢复模型

1、模型架构：

基于DiT的扩散模型：DreamClear利用了扩散变压器（DiT）的强大生成能力，结合文本到图像（T2I）扩散模型的生成先验，实现了高质量的图像恢复。
多模态大语言模型（MLLMs）：DreamClear整合了多模态大语言模型的感知能力，增强了模型对复杂图像内容的理解和恢复效果。

2、自适应调制器混合（MoAM）：

令牌级退化先验：MoAM采用令牌级的退化先验，动态整合各种恢复专家，扩展了模型处理不同退化类型的能力。
动态整合：通过动态调制器混合，DreamClear能够灵活应对多种现实世界中的图像退化，提高了模型的鲁棒性和适应性。

主要特点：

高容量模型：DreamClear是一个高容量模型，能够处理真实世界中复杂多样的图像退化问题。
DiT：利用DiT的生成先验和多模态大型语言模型（MLLMs）的感知能力，实现逼真的图像恢复。
混合自适应调制器（MoAM）：通过动态整合多种恢复专家，适应不同的退化情况，提高模型对复杂退化的处理能力。
无需训练：GenIR流程无需额外训练，可以自动生成用于训练的数据集。

工作原理：

GenIR流程：GenIR通过三阶段流程（图像-文本对构建、双提示微调、数据生成与过滤）自动生成大规模的高质量图像数据集。
双分支架构：DreamClear采用双分支架构，包括LQ分支和参考分支，分别处理低质量图像和生成参考图像。
控制形式（ControlFormer）：针对DiT优化的控制结构，结合LQ特征和参考特征，提供有效的空间控制。
MoAM机制：通过提取 token-wise 退化表示，并基于混合专家（MoE）结构动态整合各种恢复专家，增强模型对不同退化严重性的适应性。

高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

实验结果

详尽的实验验证了GenIR和DreamClear的有效性：

数据集质量：GenIR生成的数据集在质量和多样性方面均优于现有的小规模数据集，为训练高容量模型提供了有力支持。
恢复效果：DreamClear在多种图像恢复任务中表现出色，实现了照片级的恢复效果，显著优于现有的方法。
鲁棒性：通过自适应调制器混合（MoAM），DreamClear在处理多样化的现实世界退化时表现出更高的鲁棒性和适应性。

应用前景

GenIR和DreamClear的双重策略为现实世界图像恢复提供了一个全面的解决方案。这一技术不仅在学术研究中具有重要意义，还为实际应用提供了强大的支持。未来，这一技术有望在图像修复、视频处理、医疗影像分析等多个领域得到广泛应用，为用户提供更高品质的图像恢复服务。

图像模型 # DreamClear # 图像恢复模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Illustrious XL v2.0正式发布，支持1024x1536原生分辨率生成

Illustrious XL v2.0正式发布，支持1024x1536原生分辨率生成

图像模型 # Illustrious XL v2.0 # SDXL # 二次元

3周前

01840

SANA模型的升级版SANA 1.5：实现高质量的图像生成，同时显著降低了训练和推理成本

SANA模型的升级版SANA 1.5：实现高质量的图像生成，同时显著降低了训练和推理成本

图像模型 # DiT架构模型 # SANA 1.5 # 文生图模型

3周前

0350

Yandex Research推出分层蒸馏框架SWD：加速扩散模型（如FLUX和SD3.5）的生成过程

Yandex Research推出分层蒸馏框架SWD：加速扩散模型（如FLUX和SD3.5）的生成过程

图像模型 # FLUX # SD3.5 # SWD

2周前

0620

高效且多功能的框架Ctrl-Adapter：在各种图像和视频生成模型中加入丰富的控制功能

高效且多功能的框架Ctrl-Adapter：在各种图像和视频生成模型中加入丰富的控制功能

图像模型 # Ctrl-Adapter # 空间控制 # 视频生成模型

2个月前

06850

暂无评论

none

暂无评论...