微软亚洲研究院和北京大学的研究人员推出新型图像编辑框架DesignEdit,它能够实现精确的空间感知图像编辑。开发团队借鉴了设计领域的图层概念,通过灵活应用多种操作来操控图像中的对象。我们的核心思想是将空间感知图像编辑任务分解为两个子任务:多层潜在分解和多层潜在融合。
例如,你有一张设计精美的海报,想要移除上面的某个元素,或者将某个物体移动到不同的位置,而不影响整体的视觉效果。DesignEdit就能够帮你做到这一点,它通过一个无需训练、统一的框架,让你轻松完成这些编辑操作。
主要功能和特点:
- 多层潜在分解与融合:DesignEdit将图像编辑任务分解为两个子任务:多层潜在表示的分解和融合。这意味着它可以将图像中的不同对象分离出来,然后根据需要进行编辑,最后再将它们融合回图像中。
- 无需额外训练:这个框架不需要针对不同的编辑任务进行额外的训练或调整,可以直接应用于多种编辑操作。
- 空间感知能力:DesignEdit能够理解图像中的空间关系,确保编辑后的图像在视觉上是连贯的。
- 创新技术:引入了关键遮罩自注意力机制和抑制伪影的策略,提高了编辑质量,特别是在处理背景和被遮挡对象时。
工作原理:
- 多层潜在表示:首先,DesignEdit会根据编辑指令和图像分割掩模,将源图像的潜在表示分解成多个层,包括多个对象层和一个需要修复的背景层。
- 关键遮罩自注意力:通过一种新颖的自注意力机制,框架能够在保持背景整体和谐的同时,移除遮罩区域内的区域。
- 指令引导的潜在融合:然后,根据目标布局画布,将多层潜在表示融合在一起,通过额外的去噪步骤来协调融合后的多层潜在表示。
- 伪影抑制:最后,通过伪影抑制策略来检查和提高背景移除的效果。
具体应用场景:
- 设计图像编辑:设计师可以使用DesignEdit来调整设计图像中的元素,如移除、移动、缩放和翻转对象,以及进行跨图像组合。
- 照片编辑:摄影师和图像编辑者可以利用这个框架来精确编辑照片,例如去除不需要的元素或调整图像的某个部分。
- 创意内容生成:艺术家和内容创作者可以使用DesignEdit来创造新的视觉效果,实现他们的创意想法。
评论0