使用预训练的文本到图像(T2I)扩散或流模型编辑真实图像是一项具有挑战性的任务。传统的方法通常涉及将目标图像反转为对应的噪声图,然后根据新的文本提示重新生成图像。然而,仅靠反转变换往往无法获得满意的结果,因此许多方法在采样过程中引入了额外的干预措施。尽管这些方法取得了一定的成功,但它们通常依赖于特定的模型架构,难以在不同的模型之间无缝转移。
为了克服这些问题,以色列理工学院的研究人员提出了 FlowEdit,这是一种基于文本的预训练T2I流模型编辑方法,具有以下特点:
- 无需反转变换:FlowEdit 不需要将图像反转为噪声图,从而简化了编辑流程。
- 无需优化:FlowEdit 不需要对模型参数进行优化,进一步提高了效率。
- 与模型无关:FlowEdit 可以应用于不同的T2I流模型,而不需要针对每个模型进行特殊调整。
FlowEdit的核心特点是无需图像反转(inversion)和优化(optimization),并且与模型架构无关(model agnostic),使得它能够轻松地在不同的模型之间迁移和使用。这种方法通过构建一个直接映射源图像分布到目标图像分布的常微分方程(ODE),实现了更低的传输成本,从而在保持源图像结构的同时,生成与目标文本提示相符的图像。
- 项目主页:https://matankleiner.github.io/flowedit
- GitHub:https://github.com/fallenshock/FlowEdit
- Demo:https://huggingface.co/spaces/fallenshock/FlowEdit
例如,我们有一张老虎的图片,想要将其编辑成狮子的形象。使用FlowEdit,我们可以直接在老虎的图片上应用与狮子相关的文本提示,而无需先将图片反转成噪声空间,然后再从噪声空间生成新的图片。这种方法不仅保持了老虎的基本结构,如姿态和背景,还成功地将老虎的外貌转变为狮子,同时避免了在噪声空间中可能引入的失真。
FlowEdit 的核心技术
常微分方程(ODE)映射
- 源分布与目标分布:FlowEdit 构建了一个常微分方程(ODE),直接在源分布和目标分布之间进行映射。源分布对应于原始文本提示,而目标分布对应于新的文本提示。通过这种方式,FlowEdit 能够在不依赖反转变换的情况下实现从源图像到目标图像的平滑转换。
低传输成本
- 传输路径优化:FlowEdit 通过设计一个高效的传输路径,使得从源分布到目标分布的映射过程更加高效。相比传统的反转变换,FlowEdit 实现了更低的传输成本,从而减少了计算资源的消耗,并提高了编辑速度。
与模型无关的设计
- 通用性:FlowEdit 的设计使其可以应用于不同的T2I流模型,如 Stable Diffusion 3 和 FLUX。研究人员在这些模型上进行了广泛的实验,证明了FlowEdit 的有效性和通用性。
主要功能和特点
- 无需反转和优化:FlowEdit不依赖于将图像反转到噪声空间再进行编辑的传统方法,而是直接在源图像和目标图像之间建立映射。
- 模型无关性:由于不依赖于特定的模型架构,FlowEdit可以应用于多种不同的预训练流模型。
- 保持结构:FlowEdit在编辑过程中更好地保留了源图像的结构和细节,减少了失真。
- 状态艺术结果:在复杂的编辑任务中,FlowEdit达到了最先进的结果。
工作原理
FlowEdit的工作原理基于构建一个ODE,该ODE直接映射源图像分布(对应于源文本提示)到目标图像分布(对应于目标文本提示)。这个过程中,FlowEdit通过在多个随机过程中平均速度场,避免了通过高斯分布的需要,从而实现了更低的传输成本和更好的结构保持。具体来说,FlowEdit在每个时间步长中,通过添加随机噪声到源图像的表示中,然后计算相应的速度场,这些速度场用于更新ODE的解,从而逐步将源图像转变为目标图像。
实验结果与优势
- 高质量编辑结果:广泛的实验表明,FlowEdit 在多个T2I流模型上实现了比现有方法更高质量的编辑结果。特别是在处理复杂的图像编辑任务时,FlowEdit 能够更好地保留原始图像的细节,同时根据新的文本提示生成逼真的修改效果。
- 高效性:由于FlowEdit 不需要反转变换和优化步骤,其编辑过程更加高效,能够在较短的时间内完成高质量的图像编辑。这对于实时应用和大规模图像处理任务尤为重要。
- 灵活性与可扩展性:FlowEdit 的与模型无关的设计使其可以轻松应用于不同的T2I流模型,进一步扩展了其应用范围。研究人员展示了FlowEdit 在多个模型上的有效性,证明了其广泛适用性。
- 用户友好:FlowEdit 提供了一个简单易用的接口,用户只需提供源图像和目标文本提示,即可快速获得编辑后的图像。这种用户友好的设计使得FlowEdit 非常适合非专业用户和设计师使用。
评论0