个性化视觉编辑框架SwapAnything:可以在保持上下文不变的情况下,用参考提供的个性化概念替换图像中的任何物体

来自加州大学圣克鲁斯分校和Adob​​e的研究人员推出个性化视觉编辑框架SwapAnything,它可以在保持上下文不变的情况下,用参考提供的个性化概念替换图像中的任何物体。与现有的个性化主体替换方法相比,SwapAnything具有三个独特优势:(1)对任意物体和部分的精确控制,而不仅仅是主要主体;(2)更忠实地保留上下文像素;(3)更好地将个性化概念适应到图像中。

首先,开发团队提出了目标变量替换,以在潜在特征图上应用区域控制,并替换掩码变量,以实现上下文的忠实保留和初始语义概念的替换。然后,开发团队引入了外观适应,以在图像生成过程中无缝地将语义概念适应到原始图像的目标位置、形状、风格和内容。人类和自动评估的大量结果均表明,此方法在个性化替换方面相对于基线方法有了显著改进。此外,SwapAnything在单个物体、多个物体、部分物体和跨域替换任务中均展示了其精确和忠实的替换能力。

例如,如果你想将一张有狮子的照片中的狮子替换为老虎,同时保持照片的其余部分不变,你可以使用SwapAnything来实现这一点。系统会识别出狮子的区域,并将其精确替换为老虎,同时保持背景和其他细节不变。这样,你就可以得到一个看起来自然且无缝融合的新照片。

主要功能和特点:

  1. 精确控制: 用户可以指定图像中的任何对象或部分进行交换,而不仅仅是主要对象。
  2. 上下文保留: 在交换过程中,周围的上下文像素保持不变,确保只有指定的目标区域发生修改。
  3. 个性化概念适应: 新插入的对象或概念能够与原始图像的风格和内容和谐地融合在一起。

工作原理:

SwapAnything首先利用预训练的扩散模型来处理图像。它通过在潜在特征图上应用区域控制和交换掩蔽变量来实现精确的上下文保留和初始语义概念交换。然后,引入外观适应性,将语义概念在目标位置、形状、风格和内容方面无缝适应到原始图像中。这个过程包括位置适应、风格适应、规模适应和内容适应,以确保新概念与源图像的自然融合。

具体应用场景:

  1. 个性化摄影: 用户可以将自己的面孔或特定对象替换到照片中,创造个性化的回忆。
  2. 电影和游戏制作: 在电影或游戏中,可以替换或添加角色和对象,创造独特的场景。
  3. 艺术创作: 艺术家可以使用SwapAnything来创作新的艺术作品,通过替换对象来表达不同的概念和风格。
  4. 电子商务: 在产品展示中,可以替换模型上的服装或其他物品,以展示不同的产品选项。
0

评论0

没有账号?注册  忘记密码?