阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型图像编辑框架PixelMan,它基于扩散模型(Diffusion Models, DMs),通过像素操作和生成来实现一致性的对象编辑。PixelMan能够在保持对象和背景一致性的同时,对图像中的对象进行位置、大小和组成等非刚性属性的修改。例如,可以将图像中的一只鸟从一个位置移动到另一个位置,同时确保鸟的颜色、纹理和背景场景保持一致,没有违和感。
主要功能:
- 一致性对象编辑: 修改对象的位置、大小和组成,同时保持对象和背景的一致性。
- 无需训练的编辑: 无需针对特定任务的训练,即可实现图像编辑。
- 高效的采样方法: 通过一个高效的采样方法,迭代地将操作对象和谐地融入目标位置,并修复原始位置。
主要特点:
- 掩码感知的双扩散模型(Mask-Aware Dual Diffusion, MADD): 利用双流架构同时去噪RGB图像和插入掩码。
- 像素操作: 直接在像素空间中复制源对象到目标位置,创建一个像素操作的图像。
- 保持图像一致性: 通过将编辑后的图像锚定到像素操作的图像上,并引入各种保持一致性的优化技术。
工作原理
PixelMan的工作原理包括以下几个关键步骤:
- 像素操作: 在像素空间中直接创建源对象在目标位置的副本。
- 双流架构: 同时对RGB图像和插入掩码进行去噪,明确地模拟插入掩码在扩散过程中的作用。
- 一致性保持: 通过各种优化技术,在推理过程中保持图像的一致性,包括防止信息泄露的自注意力技术和编辑指导的潜在优化。
- 迭代采样: 通过迭代采样方法,逐步将操作对象融入目标位置,并修复原始位置,确保图像一致性。
具体应用场景
- 对象重定位: 在不改变对象属性的情况下,将对象从一个位置移动到另一个位置。
- 对象尺寸调整: 改变对象的大小,同时保持对象与背景的和谐关系。
- 对象粘贴: 将一个对象从一个图像复制到另一个图像中,确保对象自然地融入新的场景。
- 图像修复和合成: 对图像进行修复或合成,例如去除不需要的对象或在图像中添加新对象。
评论0