南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射

图像模型5个月前发布 小马良
304 0

在图像编辑任务中,移除一个物体看似简单,实则极具挑战。

不仅要将目标对象从画面中“擦除”,还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当,即便主体消失,残留的影子或反光仍会暴露“P图”痕迹,破坏整体真实感。

现有基于扩散模型的修复方法常面临三大难题:

  • 背景结构被错误修改
  • 阴影/反射未被完全清除
  • 生成内容出现幻觉或纹理失真

为突破这一瓶颈,南洋理工大学 S-Lab 研究团队提出 ObjectClear —— 一种新型图像编辑框架,通过引入 对象-效果注意力机制(OEA)  注意力引导融合策略(AGF),实现对目标对象及其视觉效果的联合移除,同时最大程度保留原始背景细节。

该工作还发布了高质量标注数据集 OBER,为对象移除领域提供了首个包含“对象+效果”成对标注的基准。

核心问题:为什么移除“影子”比移除“杯子”更难?

传统图像修复模型通常只关注“前景对象”的掩码区域,忽视了其对环境的间接影响。例如:

一张桌面上的玻璃杯,不仅占据像素空间,还会投下阴影、在地板上形成倒影、遮挡背景纹理。

如果仅删除杯子而保留这些“痕迹”,结果如下图所示:

🟨 问题表现

  • 地板上留下“幽灵阴影”
  • 反射区域出现断裂
  • 背景光照不一致

ObjectClear 的核心理念是:

对象移除 = 主体删除 + 效果清除 + 背景保真

为此,团队构建了专门的数据集与训练机制,系统性解决这一问题。

OBER 数据集:首个支持“对象-效果”联合标注的基准

为了有效训练和评估对象及其视觉效果的移除能力,研究团队构建了 OBER(Object-and-Effect Removal) 数据集,具有以下特点:

特性说明
📸 数据来源包含真实拍摄图像与高保真模拟渲染数据
🧩 标注丰富性每张图像提供:
  • 目标对象掩码
  • 对象效果掩码(阴影、反射等)
  • 透明 RGBA 前景图层
  • 无对象的“干净”背景图 |
    | 🏗️ 场景复杂度 | 支持单对象与多对象重叠场景,涵盖室内外、反光表面、复杂光照等挑战性条件 |

✅ OBER 是目前唯一提供“带效果”与“无效果”成对图像的数据集,为模型训练提供强监督信号。

ObjectClear 框架详解

整体流程

给定一张输入图像和用户提供的目标对象粗略掩码,ObjectClear 执行以下步骤:

  1. 预测对象-效果注意力图(OEA)
  2. 扩散模型生成初步修复结果
  3. 应用注意力引导融合策略(AGF)
  4. 输出最终图像:对象与效果均被移除,背景细节完整保留

1. 对象-效果注意力机制(OEA)

传统扩散模型依赖交叉注意力关注修复区域,但缺乏对“视觉效果”的显式建模。

ObjectClear 创新地引入 监督式注意力学习机制

  • 在训练阶段,强制模型的交叉注意力图与真实对象+效果掩码对齐;
  • 使模型学会自动识别并聚焦于“需要修复的完整区域”,包括阴影、倒影等非主体部分。

🔍 这相当于教会模型:“你要擦的不只是杯子,还有它在地上拉长的影子。”

2. 注意力引导融合策略(AGF)

为防止修复过程破坏原始背景结构,ObjectClear 在推理阶段引入 AGF(Attention-Guided Fusion)

  • 利用 OEA 预测的注意力图作为权重图;
  • 在生成图像与原始图像之间进行加权融合:
    • 高注意力区域(对象及效果区)以生成内容为主;
    • 低注意力区域(背景)尽可能保留原始像素。

✅ 显著减少背景失真,避免“越修越错”。

主要功能亮点

功能说明
✅ 联合移除对象与视觉效果支持同步清除阴影、倒影、高光、遮挡变形等间接影响
✅ 高保真背景重建通过 AGF 策略最大限度保留原始背景纹理与结构
✅ 支持粗略输入掩码用户可提供不精确的框选或涂鸦,模型自动补全与细化
✅ 适用于复杂多对象场景在重叠、遮挡、反光等条件下仍保持稳定表现

性能表现:全面超越现有方法

ObjectClear 在多个权威测试集上进行了评估,结果表明其在移除质量背景保真度方面均显著领先。

在 RORD-Val 上的表现

指标ObjectClearSOTA 方法
PSNR↑ +2.1 dB基线
PSNR-BG(背景质量)↑ +3.4 dB显著优势
LPIPS(感知距离)↓ 更低更接近真实背景
CLIP-I(语义一致性)↑ 更高语义未被破坏

在 OBER-Test 上的结果

  • 在 PSNR、PSNR-BG、LPIPS、CLIP 等指标上均取得最佳性能
  • 尤其在反射移除任务中,伪影减少超过 40%

在 OBER-Wild(真实复杂场景)上的表现

  • 使用 ReMOVE 指标评估实际可用性
  • ObjectClear 展现出更强的鲁棒性,在非理想拍摄条件下仍能稳定输出

💡 实测案例:成功移除玻璃桌上的手机及其多重反射,背景木纹无缝延续。

© 版权声明

相关文章

暂无评论

none
暂无评论...