告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

解决源图像信息过度注入问题,实现更可控的图像与视频编辑

由中山大学、香港中文大学、香港大学与南洋理工大学联合提出,ProEdit 是一种高精度、即插即用的基于反转(inversion-based)的视觉编辑方法。它专门针对当前主流编辑框架(如 RF-Solver、FireFlow、UniEdit)中的一个核心缺陷——源图像信息过度注入——提出系统性解决方案。

该问题表现为:尽管编辑后图像在背景或结构上保持了与原图的一致性,但用户指定的属性(如颜色、姿态、数量)无法被正确修改。例如,指令“将橙色猫改为黑色”却仍保留橙色,或“添加第二只猫”却无法生成新主体。

告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

ProEdit 从注意力机制潜在空间两个层面入手,实现了精准属性编辑背景一致性的兼顾。

告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

问题根源:源信息过度注入

在基于反转的编辑流程中,模型通常通过在采样过程中注入源图像的特征(如注意力 KV 对或潜在表示),以维持非编辑区域的稳定性。
然而,这种注入往往是全局且无差别的,导致:

  • 目标文本提示(如 “黑色”)的注意力权重被源图像特征压制
  • 编辑区域仍“记住”原始属性,难以响应新指令
  • 出现“改不动”“改不全”“改错对象”等失败案例

可视化分析显示:在 RF-Solver 等方法中,源文本标记对视觉 token 的注意力始终高于目标提示,即使目标语义更相关。

告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA

ProEdit 的双路径解决方案

1. KV-mix:注意力层面的区域感知融合

  • 核心思想:在编辑区域混合源图像与目标提示的 Key-Value 特征;在非编辑区域保留完整源特征
  • 效果
    • 编辑区域:降低源图像先验影响,增强目标提示控制力
    • 背景区域:维持原始结构与纹理一致性
  • 实现:通过掩码区分编辑/非编辑区域,动态融合 KV 对

2. Latents-Shift:潜在空间的扰动解耦

  • 核心思想:在反转得到的初始噪声(latent)中,对编辑区域施加可控扰动(如注入随机噪声)
  • 效果:打破源图像潜在表示对采样过程的强约束,使扩散模型能更自由地响应新提示
  • 优势:无需训练,仅在推理阶段操作,计算开销极低

工作流程

  1. 掩码提取:基于源提示与目标提示的语义差异,自动识别需编辑的区域
  2. 潜在扰动:对反转得到的初始 latent,在编辑区域应用 Latents-Shift
  3. 选择性特征融合:在采样过程中,对编辑区域使用 KV-mix,非编辑区域直接注入源 KV
  4. 生成输出:得到既符合新指令、又保留背景一致性的高质量结果

整个流程无需额外训练,可作为模块插入现有反转编辑 pipeline。

实验结果

图像编辑(PIE-Bench)

方法Structure Distance ↓PSNR ↑CLIP Sim ↑
UniEdit(基线)10.5628.7489.21
UniEdit + ProEdit9.2230.0890.87

→ 在保持结构的同时,显著提升编辑准确性与图像质量。

视频编辑(自建数据集)

指标RF-SolverRF-Solver + ProEdit
主体一致性0.94250.9712
运动平滑度0.98410.9920
成像质量0.64120.6936

→ 在视频中实现时空一致的属性修改,无闪烁或跳变。

即插即用设计

ProEdit 并非独立模型,而是一个通用增强模块,可无缝集成至多种现有框架:

  • ✅ RF-Solver
  • ✅ FireFlow
  • ✅ UniEdit
  • ✅ 其他基于 inversion + attention injection 的方法

只需在采样阶段插入 KV-mix 与 Latents-Shift 逻辑,即可获得显著性能提升。

© 版权声明

相关文章

暂无评论

none
暂无评论...