个性化视觉编辑框架SwapAnything：可以在保持上下文不变的情况下，用参考提供的个性化概念替换图像中的任何物体

355 0

来自加州大学圣克鲁斯分校和Adobe的研究人员推出个性化视觉编辑框架SwapAnything，它可以在保持上下文不变的情况下，用参考提供的个性化概念替换图像中的任何物体。与现有的个性化主体替换方法相比，SwapAnything具有三个独特优势：（1）对任意物体和部分的精确控制，而不仅仅是主要主体；（2）更忠实地保留上下文像素；（3）更好地将个性化概念适应到图像中。

项目主页：https://swap-anything.github.io
GitHub：https://github.com/eric-ai-lab/swap-anything

首先，开发团队提出了目标变量替换，以在潜在特征图上应用区域控制，并替换掩码变量，以实现上下文的忠实保留和初始语义概念的替换。然后，开发团队引入了外观适应，以在图像生成过程中无缝地将语义概念适应到原始图像的目标位置、形状、风格和内容。人类和自动评估的大量结果均表明，此方法在个性化替换方面相对于基线方法有了显著改进。此外，SwapAnything在单个物体、多个物体、部分物体和跨域替换任务中均展示了其精确和忠实的替换能力。

个性化视觉编辑框架SwapAnything：可以在保持上下文不变的情况下，用参考提供的个性化概念替换图像中的任何物体

例如，如果你想将一张有狮子的照片中的狮子替换为老虎，同时保持照片的其余部分不变，你可以使用SwapAnything来实现这一点。系统会识别出狮子的区域，并将其精确替换为老虎，同时保持背景和其他细节不变。这样，你就可以得到一个看起来自然且无缝融合的新照片。

主要功能和特点：

精确控制： 用户可以指定图像中的任何对象或部分进行交换，而不仅仅是主要对象。
上下文保留： 在交换过程中，周围的上下文像素保持不变，确保只有指定的目标区域发生修改。
个性化概念适应： 新插入的对象或概念能够与原始图像的风格和内容和谐地融合在一起。

工作原理：

SwapAnything首先利用预训练的扩散模型来处理图像。它通过在潜在特征图上应用区域控制和交换掩蔽变量来实现精确的上下文保留和初始语义概念交换。然后，引入外观适应性，将语义概念在目标位置、形状、风格和内容方面无缝适应到原始图像中。这个过程包括位置适应、风格适应、规模适应和内容适应，以确保新概念与源图像的自然融合。