RealRestorer:开源图像修复新标杆,九合一全能模型直逼闭源顶尖水平

在自动驾驶、安防监控、遥感分析乃至日常摄影中,图像质量往往决定了下游任务的成败。然而,真实世界中的图像退化(如模糊、噪点、雾霾、反光等)复杂多变,传统修复模型往往“水土不服”,而效果卓越的闭源大模型(如 Nano Banana Pro)又让普通开发者望尘莫及。

  • 项目主页:https://yfyang007.github.io/RealRestorer
  • GitHub:https://github.com/yfyang007/RealRestorer
  • 模型:https://huggingface.co/RealRestorer/RealRestorer

由 南方科技大学、StepFun(阶跃星辰) 和 中国科学院深圳先进技术研究院 联合推出的 RealRestorer 是一个面向通用真实世界图像修复的大规模开源模型,它不仅涵盖了九种主流退化类型的修复能力,更在性能上首次实现了开源模型与顶尖闭源模型的“零距离”对标。

RealRestorer:开源图像修复新标杆,九合一全能模型直逼闭源顶尖水平

核心突破:全能修复,一模型搞定九类难题

RealRestorer 不再是需要针对每种问题切换不同模型的“专科医生”,而是一位全能的“全科专家”。它能精准处理以下 9 种 真实世界常见的图像退化问题:

  1. 🌫️ 去模糊:修复运动模糊、失焦模糊,让画面重获锐利。
  2. 📺 去除摩尔纹:消除拍摄屏幕或密纹物体时产生的条纹干扰。
  3. 🧩 修复压缩失真:还原被过度压缩后出现伪影、马赛克的图片。
  4. 🌙 低光增强:将夜晚或昏暗环境下的暗片提亮,同时保留细节,拒绝噪点爆炸。
  5. ✨ 去噪:清除各类高斯噪点、彩色噪点,让画面纯净如初。
  6. 🪞 去除反光:抹除玻璃、镜面反射,还原被遮挡的主体内容。
  7. ☀️ 去炫光:消除镜头光晕、强光干扰,恢复画面通透度。
  8. 🌫️ 去雾霾:让雾天、霾天拍摄的朦胧照片恢复清晰可见。
  9. 🌧️ 去雨痕:去除雨丝、雨滴遮挡,还原雨天场景的真实面貌。

惊喜彩蛋:得益于强大的泛化能力,RealRestorer 甚至能零样本(Zero-shot)处理未专门训练的任务,如去雪老照片修复

主要亮点:开源界的“性能怪兽”

特性传统开源模型顶尖闭源模型 (如 Nano Banana Pro)RealRestorer
修复能力单一或少数几种,泛化差全能,效果好全能九合一,效果比肩闭源
数据基础依赖人工合成,脱离真实海量真实数据165万+ 真实/合成混合数据
一致性保持易变形、失真、改变主体高度一致精准保留结构与语义,不“修歪”
获取成本免费但效果一般昂贵/不可用完全开源,免费可商用
适用场景实验室理想环境商业落地真实复杂场景,鲁棒性极强

1. 真实场景驱动,告别“实验室效果”

RealRestorer 摒弃了单纯依赖人工合成数据的传统路径,构建了包含 165 万对 “受损 - 清晰”图像的大规模数据集。其中融合了真实的网络退化图像和高保真合成数据,确保模型见过足够多的“世面”,从而在复杂多变的真实环境中依然表现稳定。

2. 两阶段精细化训练策略

为了平衡泛化性与真实性,团队采用了创新的两阶段训练法

  • 阶段一(迁移学习):利用合成数据,将基础图像编辑模型的能力迁移到修复任务,打牢基础。
  • 阶段二(监督微调):引入真实数据为主、合成数据为辅的混合集,进行精细化微调,并冻结部分结构以防止过拟合和失真。

3. 一致性保持:修图不“换脸”

许多修复模型在去噪或去模糊时,往往会把人脸修歪、把文字修错。RealRestorer 通过特殊的架构设计和损失函数约束,确保了修复后的图像在场景结构、语义内容和细节纹理上与原始图像高度一致,真正做到了“修旧如旧”。

📊 实测表现:开源第一,紧咬闭源

在团队 newly 提出的 RealIR-Bench 基准(含 464 张真实退化图)及传统 FoundIR 基准上的测试结果显示:

  • 开源榜一:在去模糊、低光增强等核心任务上斩获 SOTA (State-of-the-Art),综合得分远超 Qwen-Image-Edit、LongCat-Image-Edit 等其他开源模型。
  • 比肩闭源:综合性能仅略低于顶尖闭源模型 Nano Banana Pro,差距微乎其微,但在多项指标上已超越其他商业模型。
  • 用户认可:在 32 人参与的盲测调研中,RealRestorer 的视觉效果和一致性评分仅次于 Nano Banana Pro,大幅领先其他选手。

配套资源:RealIR-Bench 评测基准

除了模型本身,研究团队还开源了 RealIR-Bench,这是首个专注于真实世界退化去除一致性保持的评测基准。

  • 数据:464 张精心挑选的真实退化图像。
  • 指标:引入了基于视觉语言模型(VLM)的自动化评分系统,结合传统像素级指标,全方位评估修复质量。
  • 意义:填补了行业空白,为后续研究提供了统一、可靠的“考卷”。
© 版权声明

相关文章

暂无评论

none
暂无评论...