英伟达研究中心、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出一种无需训练的图像编辑技术DiffUHaul,专门用于在图像中无缝移动物体。例如,你有一张图片,里面有一只猫和一块岩石,你想要将猫从图片的一侧移动到另一侧,同时保持图片的自然外观,不留下任何痕迹。DiffUHaul就是为这样的任务设计的。
DiffUHaul利用局部化文本到图像模型的空间理解能力来完成物体拖拽任务。盲目地操控局部化模型的布局输入往往会由于模型中物体表示的内在纠缠而导致编辑性能低下。为此,研究团队首先在每个去噪步骤中应用注意力掩蔽,以使不同物体之间的生成更加解耦,并采用自注意力共享机制来保持高层物体外观。此外,研究团队提出了一种新的扩散锚定技术:在早期去噪步骤中,研究团队在源图像和目标图像之间插值注意力特征,以平滑地融合新布局与原始外观;在后期去噪步骤中,研究团队将源图像的局部特征传递到插值图像,以保留细粒度的物体细节。为了使 DiffUHaul 适应真实图像编辑,研究团队应用了 DDPM 自注意力桶化技术,这可以更好地利用局部化模型重建真实图像。最终,研究团队引入了一套自动评估流水线来展示我们方法的有效性。
主要功能:
DiffUHaul的主要功能是在图像中移动物体,就像使用拖放工具一样简单。它能够将一个物体从一个位置移动到另一个位置,同时保持物体的外观和背景的连贯性。
主要特点:
- 无需训练: 与传统的机器学习方法不同,DiffUHaul不需要大量的数据训练,这意味着它可以快速部署和使用。
- 空间理解: 它利用了一种特殊的文本到图像的模型,这个模型能够理解图像中的空间布局,从而更好地处理物体的移动。
- 保持细节: 在移动物体时,它能够保留物体的细节和背景的连贯性,使得编辑后的图像看起来非常自然。
工作原理:
DiffUHaul的工作原理可以分为几个步骤:
- 注意力遮罩: 在图像生成的每一步中,它使用一种特殊的遮罩技术来隔离不同的物体,这样在编辑时就不会互相干扰。
- 软锚定技术: 它在图像的早期生成步骤中,通过插值的方式将源图像和目标图像的注意力特征融合,以平滑地融合新布局和原始外观。
- 自注意力共享: 它采用自注意力共享机制来保持物体的高级外观。
- DDPM自注意力桶技术: 为了适应真实图像编辑,它使用一种特殊的技术来更好地重建真实图像。
具体应用场景:
DiffUHaul可以应用于多种场景,包括但不限于:
- 数字艺术创作: 艺术家可以在创作过程中轻松调整图像中的元素位置,而不需要重新绘制整个场景。
- 照片编辑: 用户可以修正照片中的小错误,比如移动遮挡重要部分的物体。
- 游戏和电影制作: 在制作过程中,可以快速调整场景布局,而不需要重新拍摄或渲染。
- 增强现实(AR)和虚拟现实(VR): 在这些应用中,用户可以实时移动虚拟物体,与现实世界无缝融合。
总的来说,DiffUHaul提供了一种强大且灵活的工具,可以在不牺牲图像质量的情况下,轻松地在图像中移动物体。
评论0