图像编辑工具SwiftEdit:通过简单的文本提示实现快速的图像编辑

VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit,它能够通过简单的文本提示实现快速的图像编辑。SwiftEdit的核心优势在于其极速的编辑能力,能够在0.23秒内完成编辑任务,这比传统的多步骤图像编辑方法快至少50倍。该工具不仅速度快,还能保持与多步骤方法相竞争的编辑质量。

例如,用户可以输入文本提示“将篮子里的苹果变成小狗”,SwiftEdit能够迅速理解这个指令,并在极短的时间内在图像上实现这一变化。另一个例子是“将空无一人的街道变成拥挤的街道”,SwiftEdit同样能够迅速响应并完成编辑。

主要功能和特点

  1. 极速编辑:SwiftEdit能够在0.23秒内完成图像编辑,这是其最显著的特点。
  2. 文本引导:用户只需提供简单的文本提示,SwiftEdit就能理解并执行相应的图像编辑。
  3. 局部编辑:SwiftEdit能够进行局部图像编辑,而不影响图像的其他部分。
  4. 无需掩码:与传统的图像编辑方法不同,SwiftEdit不需要用户定义掩码,它可以直接根据文本提示进行编辑。

工作原理

SwiftEdit的工作原理基于以下几个关键技术:

  1. 一步式反转框架:SwiftEdit提出了一个一步式反转框架,能够直接从图像重建latent space,而不需要传统的多步骤反转过程。
  2. 掩码引导编辑技术:SwiftEdit使用掩码引导编辑技术,通过注意力重缩放机制来控制编辑强度,同时保留背景元素。
  3. 两阶段训练策略:SwiftEdit的训练包括两个阶段,第一阶段使用合成数据进行预热训练,第二阶段则转移到真实图像,使得模型能够处理任何输入图像。
0

评论0

没有账号?注册  忘记密码?