南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ，精准消除物体及其阴影、反射

图像模型8个月前发布小马良

430 0

在图像编辑任务中，移除一个物体看似简单，实则极具挑战。

不仅要将目标对象从画面中“擦除”，还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当，即便主体消失，残留的影子或反光仍会暴露“P图”痕迹，破坏整体真实感。

现有基于扩散模型的修复方法常面临三大难题：

背景结构被错误修改
阴影/反射未被完全清除
生成内容出现幻觉或纹理失真

为突破这一瓶颈，南洋理工大学 S-Lab 研究团队提出 ObjectClear —— 一种新型图像编辑框架，通过引入 对象-效果注意力机制（OEA） 与 注意力引导融合策略（AGF），实现对目标对象及其视觉效果的联合移除，同时最大程度保留原始背景细节。

项目主页：https://zjx0101.github.io/projects/ObjectClear
GitHub：https://github.com/zjx0101/ObjectClear
Demo：https://huggingface.co/spaces/jixin0101/ObjectClear

该工作还发布了高质量标注数据集 OBER，为对象移除领域提供了首个包含“对象+效果”成对标注的基准。

核心问题：为什么移除“影子”比移除“杯子”更难？

传统图像修复模型通常只关注“前景对象”的掩码区域，忽视了其对环境的间接影响。例如：

一张桌面上的玻璃杯，不仅占据像素空间，还会投下阴影、在地板上形成倒影、遮挡背景纹理。

如果仅删除杯子而保留这些“痕迹”，结果如下图所示：

🟨 问题表现：
地板上留下“幽灵阴影”
反射区域出现断裂
背景光照不一致

ObjectClear 的核心理念是：

对象移除 = 主体删除 + 效果清除 + 背景保真

为此，团队构建了专门的数据集与训练机制，系统性解决这一问题。

OBER 数据集：首个支持“对象-效果”联合标注的基准

为了有效训练和评估对象及其视觉效果的移除能力，研究团队构建了 OBER（Object-and-Effect Removal） 数据集，具有以下特点：

特性	说明
📸 数据来源	包含真实拍摄图像与高保真模拟渲染数据
🧩 标注丰富性	每张图像提供：

目标对象掩码
对象效果掩码（阴影、反射等）
透明 RGBA 前景图层
无对象的“干净”背景图 |
| 🏗️ 场景复杂度 | 支持单对象与多对象重叠场景，涵盖室内外、反光表面、复杂光照等挑战性条件 |

✅ OBER 是目前唯一提供“带效果”与“无效果”成对图像的数据集，为模型训练提供强监督信号。

ObjectClear 框架详解

整体流程

给定一张输入图像和用户提供的目标对象粗略掩码，ObjectClear 执行以下步骤：

预测对象-效果注意力图（OEA）
扩散模型生成初步修复结果
应用注意力引导融合策略（AGF）
输出最终图像：对象与效果均被移除，背景细节完整保留

1. 对象-效果注意力机制（OEA）

传统扩散模型依赖交叉注意力关注修复区域，但缺乏对“视觉效果”的显式建模。

ObjectClear 创新地引入 监督式注意力学习机制：

在训练阶段，强制模型的交叉注意力图与真实对象+效果掩码对齐；
使模型学会自动识别并聚焦于“需要修复的完整区域”，包括阴影、倒影等非主体部分。

🔍 这相当于教会模型：“你要擦的不只是杯子，还有它在地上拉长的影子。”

2. 注意力引导融合策略（AGF）

为防止修复过程破坏原始背景结构，ObjectClear 在推理阶段引入 AGF（Attention-Guided Fusion）：

利用 OEA 预测的注意力图作为权重图；
在生成图像与原始图像之间进行加权融合：
- 高注意力区域（对象及效果区）以生成内容为主；
- 低注意力区域（背景）尽可能保留原始像素。

✅ 显著减少背景失真，避免“越修越错”。

主要功能亮点

功能	说明
✅ 联合移除对象与视觉效果	支持同步清除阴影、倒影、高光、遮挡变形等间接影响
✅ 高保真背景重建	通过 AGF 策略最大限度保留原始背景纹理与结构
✅ 支持粗略输入掩码	用户可提供不精确的框选或涂鸦，模型自动补全与细化
✅ 适用于复杂多对象场景	在重叠、遮挡、反光等条件下仍保持稳定表现

性能表现：全面超越现有方法

ObjectClear 在多个权威测试集上进行了评估，结果表明其在移除质量与背景保真度方面均显著领先。

在 RORD-Val 上的表现

指标	ObjectClear	SOTA 方法
PSNR	↑ +2.1 dB	基线
PSNR-BG（背景质量）	↑ +3.4 dB	显著优势
LPIPS（感知距离）	↓ 更低	更接近真实背景
CLIP-I（语义一致性）	↑ 更高	语义未被破坏

在 OBER-Test 上的结果

在 PSNR、PSNR-BG、LPIPS、CLIP 等指标上均取得最佳性能
尤其在反射移除任务中，伪影减少超过 40%

在 OBER-Wild（真实复杂场景）上的表现

使用 ReMOVE 指标评估实际可用性
ObjectClear 展现出更强的鲁棒性，在非理想拍摄条件下仍能稳定输出

💡 实测案例：成功移除玻璃桌上的手机及其多重反射，背景木纹无缝延续。

图像模型 # ObjectClear # 南洋理工大学 # 对象移除

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

图像模型 # DMM # 图像生成模型 # 蒸馏模型

11个月前

02620

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

图像模型 # FLUX # UNO # 字节跳动

11个月前

06580

虚拟服装试穿Magic Clothing：根据特定的服装和文本提示来生成穿着这些服装的定制化角色图像

虚拟服装试穿Magic Clothing：根据特定的服装和文本提示来生成穿着这些服装的定制化角色图像

图像模型 # Magic Clothing # 虚拟服装试穿

1年前

01,1560

fal 发布FLUX.2 Turbo：开源图像模型速度提升6倍，成本降至0.008美元/图

fal 发布FLUX.2 Turbo：开源图像模型速度提升6倍，成本降至0.008美元/图

图像模型 # FLUX.2 Turbo

2个月前

01000

暂无评论

none

暂无评论...