在图像编辑任务中,移除一个物体看似简单,实则极具挑战。
不仅要将目标对象从画面中“擦除”,还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当,即便主体消失,残留的影子或反光仍会暴露“P图”痕迹,破坏整体真实感。

现有基于扩散模型的修复方法常面临三大难题:
- 背景结构被错误修改
- 阴影/反射未被完全清除
- 生成内容出现幻觉或纹理失真
为突破这一瓶颈,南洋理工大学 S-Lab 研究团队提出 ObjectClear —— 一种新型图像编辑框架,通过引入 对象-效果注意力机制(OEA) 与 注意力引导融合策略(AGF),实现对目标对象及其视觉效果的联合移除,同时最大程度保留原始背景细节。
- 项目主页:https://zjx0101.github.io/projects/ObjectClear
- GitHub:https://github.com/zjx0101/ObjectClear
- Demo:https://huggingface.co/spaces/jixin0101/ObjectClear
该工作还发布了高质量标注数据集 OBER,为对象移除领域提供了首个包含“对象+效果”成对标注的基准。

核心问题:为什么移除“影子”比移除“杯子”更难?
传统图像修复模型通常只关注“前景对象”的掩码区域,忽视了其对环境的间接影响。例如:
一张桌面上的玻璃杯,不仅占据像素空间,还会投下阴影、在地板上形成倒影、遮挡背景纹理。
如果仅删除杯子而保留这些“痕迹”,结果如下图所示:
🟨 问题表现:
- 地板上留下“幽灵阴影”
- 反射区域出现断裂
- 背景光照不一致
ObjectClear 的核心理念是:
对象移除 = 主体删除 + 效果清除 + 背景保真
为此,团队构建了专门的数据集与训练机制,系统性解决这一问题。

OBER 数据集:首个支持“对象-效果”联合标注的基准
为了有效训练和评估对象及其视觉效果的移除能力,研究团队构建了 OBER(Object-and-Effect Removal) 数据集,具有以下特点:
| 特性 | 说明 |
|---|---|
| 📸 数据来源 | 包含真实拍摄图像与高保真模拟渲染数据 |
| 🧩 标注丰富性 | 每张图像提供: |
- 目标对象掩码
- 对象效果掩码(阴影、反射等)
- 透明 RGBA 前景图层
- 无对象的“干净”背景图 |
| 🏗️ 场景复杂度 | 支持单对象与多对象重叠场景,涵盖室内外、反光表面、复杂光照等挑战性条件 |
✅ OBER 是目前唯一提供“带效果”与“无效果”成对图像的数据集,为模型训练提供强监督信号。

ObjectClear 框架详解
整体流程
给定一张输入图像和用户提供的目标对象粗略掩码,ObjectClear 执行以下步骤:
- 预测对象-效果注意力图(OEA)
- 扩散模型生成初步修复结果
- 应用注意力引导融合策略(AGF)
- 输出最终图像:对象与效果均被移除,背景细节完整保留
1. 对象-效果注意力机制(OEA)
传统扩散模型依赖交叉注意力关注修复区域,但缺乏对“视觉效果”的显式建模。
ObjectClear 创新地引入 监督式注意力学习机制:
- 在训练阶段,强制模型的交叉注意力图与真实对象+效果掩码对齐;
- 使模型学会自动识别并聚焦于“需要修复的完整区域”,包括阴影、倒影等非主体部分。
🔍 这相当于教会模型:“你要擦的不只是杯子,还有它在地上拉长的影子。”
2. 注意力引导融合策略(AGF)
为防止修复过程破坏原始背景结构,ObjectClear 在推理阶段引入 AGF(Attention-Guided Fusion):
- 利用 OEA 预测的注意力图作为权重图;
- 在生成图像与原始图像之间进行加权融合:
- 高注意力区域(对象及效果区)以生成内容为主;
- 低注意力区域(背景)尽可能保留原始像素。
✅ 显著减少背景失真,避免“越修越错”。

主要功能亮点
| 功能 | 说明 |
|---|---|
| ✅ 联合移除对象与视觉效果 | 支持同步清除阴影、倒影、高光、遮挡变形等间接影响 |
| ✅ 高保真背景重建 | 通过 AGF 策略最大限度保留原始背景纹理与结构 |
| ✅ 支持粗略输入掩码 | 用户可提供不精确的框选或涂鸦,模型自动补全与细化 |
| ✅ 适用于复杂多对象场景 | 在重叠、遮挡、反光等条件下仍保持稳定表现 |
性能表现:全面超越现有方法
ObjectClear 在多个权威测试集上进行了评估,结果表明其在移除质量与背景保真度方面均显著领先。
在 RORD-Val 上的表现
| 指标 | ObjectClear | SOTA 方法 |
|---|---|---|
| PSNR | ↑ +2.1 dB | 基线 |
| PSNR-BG(背景质量) | ↑ +3.4 dB | 显著优势 |
| LPIPS(感知距离) | ↓ 更低 | 更接近真实背景 |
| CLIP-I(语义一致性) | ↑ 更高 | 语义未被破坏 |
在 OBER-Test 上的结果
- 在 PSNR、PSNR-BG、LPIPS、CLIP 等指标上均取得最佳性能
- 尤其在反射移除任务中,伪影减少超过 40%
在 OBER-Wild(真实复杂场景)上的表现
- 使用 ReMOVE 指标评估实际可用性
- ObjectClear 展现出更强的鲁棒性,在非理想拍摄条件下仍能稳定输出
💡 实测案例:成功移除玻璃桌上的手机及其多重反射,背景木纹无缝延续。















