告别 “改不动”！ProEdit：反转编辑新方案，精准修改图像属性，即插即用超 SOTA

图像模型2个月前发布小马良

72 0

解决源图像信息过度注入问题，实现更可控的图像与视频编辑

由中山大学、香港中文大学、香港大学与南洋理工大学联合提出，ProEdit 是一种高精度、即插即用的基于反转（inversion-based）的视觉编辑方法。它专门针对当前主流编辑框架（如 RF-Solver、FireFlow、UniEdit）中的一个核心缺陷——源图像信息过度注入——提出系统性解决方案。

项目主页：https://isee-laboratory.github.io/ProEdit
GitHub：https://github.com/iSEE-Laboratory/ProEdit

该问题表现为：尽管编辑后图像在背景或结构上保持了与原图的一致性，但用户指定的属性（如颜色、姿态、数量）无法被正确修改。例如，指令“将橙色猫改为黑色”却仍保留橙色，或“添加第二只猫”却无法生成新主体。

告别 “改不动”！ProEdit：反转编辑新方案，精准修改图像属性，即插即用超 SOTA

ProEdit 从注意力机制与潜在空间两个层面入手，实现了精准属性编辑与背景一致性的兼顾。

告别 “改不动”！ProEdit：反转编辑新方案，精准修改图像属性，即插即用超 SOTA

问题根源：源信息过度注入

在基于反转的编辑流程中，模型通常通过在采样过程中注入源图像的特征（如注意力 KV 对或潜在表示），以维持非编辑区域的稳定性。
然而，这种注入往往是全局且无差别的，导致：

目标文本提示（如 “黑色”）的注意力权重被源图像特征压制
编辑区域仍“记住”原始属性，难以响应新指令
出现“改不动”“改不全”“改错对象”等失败案例

可视化分析显示：在 RF-Solver 等方法中，源文本标记对视觉 token 的注意力始终高于目标提示，即使目标语义更相关。

告别 “改不动”！ProEdit：反转编辑新方案，精准修改图像属性，即插即用超 SOTA

ProEdit 的双路径解决方案

1. KV-mix：注意力层面的区域感知融合

核心思想：在编辑区域混合源图像与目标提示的 Key-Value 特征；在非编辑区域保留完整源特征
效果：
- 编辑区域：降低源图像先验影响，增强目标提示控制力
- 背景区域：维持原始结构与纹理一致性
实现：通过掩码区分编辑/非编辑区域，动态融合 KV 对

2. Latents-Shift：潜在空间的扰动解耦

核心思想：在反转得到的初始噪声（latent）中，对编辑区域施加可控扰动（如注入随机噪声）
效果：打破源图像潜在表示对采样过程的强约束，使扩散模型能更自由地响应新提示
优势：无需训练，仅在推理阶段操作，计算开销极低

工作流程

掩码提取：基于源提示与目标提示的语义差异，自动识别需编辑的区域
潜在扰动：对反转得到的初始 latent，在编辑区域应用 Latents-Shift
选择性特征融合：在采样过程中，对编辑区域使用 KV-mix，非编辑区域直接注入源 KV
生成输出：得到既符合新指令、又保留背景一致性的高质量结果

整个流程无需额外训练，可作为模块插入现有反转编辑 pipeline。

实验结果

图像编辑（PIE-Bench）

方法	Structure Distance ↓	PSNR ↑	CLIP Sim ↑
UniEdit（基线）	10.56	28.74	89.21
UniEdit + ProEdit	9.22	30.08	90.87

→ 在保持结构的同时，显著提升编辑准确性与图像质量。

视频编辑（自建数据集）

指标	RF-Solver	RF-Solver + ProEdit
主体一致性	0.9425	0.9712
运动平滑度	0.9841	0.9920
成像质量	0.6412	0.6936

→ 在视频中实现时空一致的属性修改，无闪烁或跳变。

即插即用设计

ProEdit 并非独立模型，而是一个通用增强模块，可无缝集成至多种现有框架：

✅ RF-Solver
✅ FireFlow
✅ UniEdit
✅ 其他基于 inversion + attention injection 的方法

只需在采样阶段插入 KV-mix 与 Latents-Shift 逻辑，即可获得显著性能提升。

图像模型 # ProEdit # 编辑图像

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Face-MoGLE：一种面向高保真与可控人脸生成的新框架

Face-MoGLE：一种面向高保真与可控人脸生成的新框架

图像模型 # Face-MoGLE # 人脸生成

6个月前

02540

Lumina-Accessory：专为 Lumina 系列模型设计的多任务指令微调框架

Lumina-Accessory：专为 Lumina 系列模型设计的多任务指令微调框架

图像模型 # Lumina-Accessory # Lumina-Image 2.0 # 图像生成

10个月前

03470

gen2seg：将生成模型（如Stable Diffusion和MAE）应用于实例分割任务

gen2seg：将生成模型（如Stable Diffusion和MAE）应用于实例分割任务

图像模型 # gen2seg # 实例分割 # 生成模型

9个月前

04280

腾讯混元开源 HunyuanImage 2.1：支持 2K 分辨率的高效文生图模型

腾讯混元开源 HunyuanImage 2.1：支持 2K 分辨率的高效文生图模型

图像模型 # HunyuanImage 2.1 # 文生图模型

5个月前

03850

暂无评论

none

暂无评论...