字节跳动推出新型图像编辑方法 SuperEdit ：通过改进监督信号来提升基于指令的图像编辑性能

276 0

字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ，通过改进监督信号来提升基于指令的图像编辑性能。

传统方法在训练图像编辑模型时，由于编辑指令与原始-编辑图像对之间存在不匹配问题，导致监督信号存在噪声，影响了模型的编辑精度。SuperEdit 通过构建更有效的编辑指令（包括纠正编辑指令和对比编辑指令）来解决这一问题，从而显著提高了图像编辑的准确性和效果。

纠正编辑指令（Instruction Rectification）： SuperEdit 能够纠正原始编辑指令，使其更准确地对齐原始图像与编辑图像之间的差异。例如，对于指令“将背景替换为雪山景观”，纠正后的指令会更具体地描述如何修改背景，避免对其他无关部分的误编辑。
对比编辑指令（Contrastive Editing Instructions）： 通过引入正负样本指令，增强模型对编辑指令的理解能力。例如，对于正确的指令“给男孩添加一条粉色领带”，模型还会学习错误的指令（如“给男孩添加一条紫色领带”），从而更好地理解指令的细微差别。
高效数据利用： SuperEdit 在少量数据（40K）和较小模型（1.1B 参数）的情况下，实现了优于现有方法（如 SmartEdit）的性能，同时无需额外的预训练任务或复杂的模型架构。

高质量监督信号： 通过纠正和对比编辑指令，显著提高了监督信号的质量，减少了噪声，使得模型能够更准确地执行编辑任务。
无需额外模块或预训练： 不依赖于额外的视觉-语言模型（VLM）或预训练任务，简化了模型架构，降低了计算成本。
显著的性能提升： 在多个基准测试中，SuperEdit 实现了显著优于现有方法的性能，尤其是在遵循指令（Following）、保留原始内容（Preserving）和编辑质量（Quality）方面。
数据驱动的优化： 专注于通过优化监督信号来提升性能，而不是依赖于模型架构的复杂性或大规模数据集。

纠正编辑指令：
- 利用扩散模型的生成先验（Diffusion Generation Priors），分析不同推理阶段（如全局布局、局部属性、细节和风格）的图像生成特性。
- 将原始图像和编辑图像输入视觉-语言模型（如 GPT-4o），生成纠正后的编辑指令，使其更准确地描述原始图像到编辑图像的转换。
- 例如，对于指令“将背景替换为雪山景观”，纠正后的指令会详细描述如何修改背景，同时保留其他部分不变。
对比编辑指令：
- 基于纠正后的编辑指令，生成错误的编辑指令（如修改数量、位置或对象类别）。
- 在训练过程中，模型同时学习纠正的指令和错误的指令，并通过三元组损失（Triplet Loss）优化，使模型能够更好地区分正确和错误的编辑指令。
- 例如，对于纠正的指令“给男孩添加一条粉色领带”，错误的指令可能是“给男孩添加一条紫色领带”，模型通过对比学习，提高对指令的理解能力。
优化训练过程：
- 使用少量高质量的训练数据（40K 样本），通过纠正和对比编辑指令，显著提高了模型的编辑性能。
- 在训练过程中，模型不仅学习如何执行正确的编辑指令，还通过对比学习避免错误的编辑结果。

图像风格转换： 将一张照片的风格从写实转换为水彩画风格。SuperEdit 能够准确理解“将图像风格转换为水彩画”的指令，并生成符合要求的编辑结果。
场景变换： 将一张普通风景照片转换为冬季雪景。例如，指令“将整个场景转换为冬季雪景”，SuperEdit 能够将房屋、树木和地面覆盖上雪，同时保留原始图像的布局和结构。
局部对象修改： 在一张照片中添加或删除特定对象。例如，“在男孩的脖子上添加一条粉色领带”或“删除天空中的云朵”，SuperEdit 能够准确执行这些局部编辑任务。
全局布局调整： 改变图像的全局布局，如“将背景替换为海滩和海洋”，SuperEdit 能够在保持原始图像主体内容的同时，修改背景部分。