X-Planner:基于 MLLM 的图像编辑任务规划系统,让复杂指令也能精准执行

新技术5个月前发布 小马良
239 0

图像编辑领域,用户常常需要执行诸如“将这张照片转换为赛博朋克风格”或“让图中的动物看起来像是在庆祝圣诞节”这样的复杂操作。这些任务不仅要求模型理解抽象指令,还需准确定位并修改图像中的特定区域。

然而,传统图像编辑方法在面对这类间接性、多对象、多步骤的复杂指令时往往表现不佳,例如:

  • 难以解析语义模糊的描述
  • 编辑区域定位不准确
  • 编辑过程中丢失原始对象身份信息

为了解决这些问题,来自 加州大学伯克利分校、香港大学和 Adobe 的研究团队 提出了一个全新的解决方案:X-Planner —— 一种基于多模态大型语言模型(MLLM)的图像编辑任务规划系统。

核心功能

X-Planner 能够:

  1. 分解复杂指令
    将复杂的自然语言指令拆解为多个简单子任务,例如:

    • “将这张照片转换为赛博朋克风格” → 分解为“改变树木纹理”、“添加宇宙飞船”等具体操作。
  2. 精确定位编辑区域
    为每个子任务生成对应的 分割掩码(Segmentation Mask)  边界框(Bounding Box),确保编辑仅发生在目标区域。
  3. 动态选择编辑模型
    根据任务类型(插入、替换、风格迁移等),自动匹配最适合的图像编辑模型。

技术亮点

✅ 多模态大语言模型驱动

X-Planner 利用 MLLM 强大的语言理解和视觉分析能力,实现对复杂指令的解析与编辑策略的制定。

✅ 自动化训练数据生成管道

为了训练 X-Planner,研究团队开发了一套三级自动化数据生成流程:

阶段内容
第一级使用 GPT-4o 模板生成结构化的“复杂指令-子指令对”,涵盖多对象、多步骤编辑任务,并标注对象锚点与编辑类型
第二级基于 Grounded SAM 提取对象掩码,并根据编辑类型优化掩码质量
第三级对“插入类”任务预训练 MLLM,使其能在无视觉证据的情况下预测合理的边界框

✅ 新基准测试集 COMPIE

团队还构建了一个专注于复杂指令编辑的新评估数据集 COMPIE,用于衡量模型对复杂指令的理解与执行能力。

工作原理详解

X-Planner 的完整工作流程如下:

  1. 指令分解
    • 输入:用户提供的复杂自然语言指令
    • 输出:一系列可执行的子任务(如插入、替换、风格变更)
  2. 区域定位
    • 为每个子任务生成精确的图像区域标注(掩码 + 边界框)
    • 示例:“在猫周围添加圣诞装饰” → 生成猫的掩码 + 装饰物应出现的边界框
  3. 模型选择
    • 动态匹配最适合当前子任务的编辑模型(如风格迁移模型、图像插入模型)
  4. 迭代编辑
    • 按顺序执行各子任务,最终输出符合复杂指令的编辑结果

测试结果与优势

✅ 简单指令测试(MagicBrush 基准)

  • 显著提升 UltraEdit 等图像编辑模型的表现
  • 在保持对象身份方面(L1 距离、CLIP 相似度)优于现有方法

✅ 复杂指令测试(COMPIE 基准)

  • 通过分解指令 + 掩码引导,显著提高编辑模型对复杂指令的理解力
  • 在 MLLM 文本-图像对齐(MLLMti)、图像相似度(MLLMim)等指标上表现优异

✅ 用户研究反馈

  • 用户普遍认为 X-Planner 生成的图像:
    • 更好地保留了原图身份特征
    • 更贴合指令意图
    • 整体质量更高

可视化效果展示

X-Planner 在多次运行中展现出良好的一致性与多样性:

  • 对插入类任务(如添加独角兽、笔记本电脑等)能持续生成合理、语义一致的边界框
  • 同时引入自然的变化(位置、角度不同),避免重复单调的输出

实际应用价值

X-Planner 的推出,为图像编辑带来了三大核心优势:

优势描述
高效性减少手动标注和调整的时间,提升编辑效率
可控性提供明确的编辑范围控制,防止误操作
扩展性支持多种编辑模型集成,适应多样化的图像处理需求
© 版权声明

相关文章

暂无评论

none
暂无评论...