图像编辑技术近年来在基于反演(inversion-based)和基于指令(instruction-based)的方法上取得了显著进步。然而,这些方法各自存在局限性:
- 基于反演的方法:在处理重大修改(如添加或删除对象)时面临挑战,因为反演噪声的结构化特性阻碍了实质性变化。
- 基于指令的方法:通常将用户限制在黑箱操作中,限制了直接交互以指定编辑区域和强度。
为了解决这些限制,北京大学、腾讯 PCG ARC 实验室、香港中文大学和清华大学的研究人员提出了 BrushEdit,这是一种新颖的基于修复的指令引导图像编辑框架。BrushEdit 利用多模态大语言模型(MLLMs)和图像修复模型,实现自主、用户友好和交互式的自由形式指令编辑。通过在代理协作框架中集成 MLLMs 和双分支图像修复模型,BrushEdit 使用户能够通过自然语言指令进行无缝编辑,包括添加对象、移除元素或进行结构性更改等多样化编辑操作。
- 项目主页:https://liyaowei-stu.github.io/project/BrushEdit
- GitHub:https://github.com/TencentARC/BrushEdit
- 模型:https://huggingface.co/TencentARC/BrushEdit
- Demo:https://huggingface.co/spaces/TencentARC/BrushEdit
例如,用户可以通过简单的编辑指令如“在头上添加一个花环”,BrushEdit能够识别出需要编辑的对象(花环),并在图像上的相应位置添加花环,同时保持背景和其他区域的连贯性和一致性。
主要功能
- 自由形式指令编辑:用户可以使用自然语言指令来指导编辑过程。
- 对象添加与移除:在图像中添加或删除特定对象。
- 结构性更改:对图像进行更深层次的修改,如更改背景或对象属性。
- 交互式编辑:用户可以在编辑过程中进行多次迭代和调整,直至达到满意效果。
主要特点
- 多模态大型语言模型(MLLMs):利用预训练的MLLMs来理解和处理编辑指令。
- 双分支图像修复模型:结合了BrushNet的双分支架构,一个分支处理背景信息,另一个分支负责根据指令生成前景内容。
- 统一的模型训练:通过统一训练处理不同类型的掩码(如随机掩码和分割掩码),提高了模型的适用性和灵活性。
- 即插即用:可以轻松集成到不同的预训练扩散模型中,无需额外的训练过程
流程概述
BrushEdit 的方法包括四个主要步骤,每个步骤都利用了预训练的 MLLMs 和检测模型,最终通过改进的 BrushNet 双分支修复模型进行图像编辑。
编辑类别分类:
- 目标:确定用户所需的编辑类型(例如,移除对象、添加对象、背景编辑等)。
- 实现:使用预训练的 MLLM 对用户的自然语言指令进行分类,识别出具体的编辑任务。MLLM 通过对大量文本和图像数据的训练,能够理解复杂的指令并将其映射到特定的编辑类别。
主要编辑对象识别:
- 目标:识别图像中需要编辑的主要对象。
- 实现:结合 MLLM 和目标检测模型(如 YOLO、Mask R-CNN 等),自动识别图像中的关键对象,并生成相应的边界框或分割掩码。这一步骤确保了编辑操作的精确性和针对性。
编辑掩码和目标描述获取:
- 目标:生成编辑掩码和相应的目标描述,指导后续的修复过程。
- 实现:根据用户的指令和识别出的对象,MLLM 生成详细的编辑掩码和目标描述。编辑掩码用于指示要修改的区域,而目标描述则提供了关于如何修改该区域的具体信息(例如,添加什么对象、如何改变背景等)。MLLM 的多模态能力使得它能够理解复杂的指令并生成准确的掩码和描述。
图像修复:
- 目标:执行实际的图像编辑,确保编辑后的图像自然且一致。
- 实现:使用改进的 BrushNet 双分支修复模型进行图像编辑。
BrushNet 包含两个分支:
- 修复分支:根据编辑掩码和目标描述,生成修复后的图像区域,确保编辑内容与周围环境无缝融合。
- 背景保留分支:保持未编辑区域的原始细节,确保背景的一致性和自然性。通过这种方式,BrushNet 能够在执行复杂编辑的同时,最大限度地保留图像的真实感。
应用场景
BrushEdit 支持多种图像编辑任务,具体包括:
- 移除某物:用户可以指定要移除的对象,系统会自动生成编辑掩码并修复该区域,确保移除后图像的自然过渡。
- 添加某物:用户可以指定要添加的对象及其位置,系统会根据目标描述生成新的对象并将其融入图像中,保持整体一致性。
- 背景编辑:用户可以修改背景的颜色、纹理或其他属性,系统会根据目标描述调整背景,同时保持前景对象的不变。
- 对象编辑:用户可以对图像中的对象进行修改,例如改变其形状、颜色或姿态,系统会根据指令生成相应的编辑结果。
实验结果
大量的实验表明,BrushEdit 在七个关键指标上表现出色:
- 掩码区域保留:编辑后的图像在未编辑区域保持了高度的细节和一致性。
- 编辑效果一致性:编辑后的图像在视觉上自然且连贯,没有明显的拼接痕迹。
- 编辑精度:系统能够准确识别并编辑用户指定的区域,避免误操作。
- 编辑速度:整个编辑过程高效快速,能够在短时间内生成高质量的编辑结果。
- 用户交互性:用户可以通过自然语言指令轻松控制编辑过程,提升了编辑的灵活性和用户体验。
- 多模态理解:系统能够理解复杂的多模态指令,结合文本和图像信息进行精准编辑。
- 泛化能力:系统在不同类型的图像和编辑任务上表现出色,具有较强的泛化能力。
评论0