谷歌推出新型图像编辑工具Magic Insert：将一张图片中的主题（比如一个人或者一个物体）拖拽到另一张风格完全不同的图片上，并且让这个主题在新图片中看起来非常自然

537 0

谷歌推出新型图像编辑工具Magic Insert，可以让我们像变魔术一样，将一张图片中的主题（比如一个人或者一个物体）拖拽到另一张风格完全不同的图片上，并且让这个主题在新图片中看起来非常自然，就像它本来就属于那里一样。例如，你有一个卡通风格的自拍照，你想将它放入一张风景画中。使用 Magic Insert，你可以简单地将自拍照拖放到风景画上，工具会自动调整自拍照的风格，使其看起来像是用画笔绘制的，与风景画完美融合。这样，你就可以得到一张既有个人特色又具有艺术感的图片。

项目主页：https://magicinsert.github.io
Demo：https://magicinsert.github.io/demo.html

Magic Insert能够将用户提供的图像中的主体元素以符合物理逻辑的方式拖放嵌入至风格迥异的目标图像中，并确保融入目标图像的独特风格。此创新工作首次对风格感知的拖放问题进行了系统阐述，并提出了解决方案，该方案通过逐一解决两个核心挑战来达成目标：一是实现风格感知的个性化调整，二是实现在已风格化的图像中进行逼真对象嵌入。

针对风格感知的个性化，Magic Insert首先借助LoRA和学习到的文本标记，对一个预训练的文本转图像扩散模型进行微调，该模型基于源图像操作。此后，研究团队进一步将该模型与代表目标风格的CLIP表述融合。在对象嵌入环节，运用了“引导式领域适应”策略，使一个原本专为照片级真实感对象嵌入设计的模型，能够适应涵盖多种艺术风格的广泛领域。此外，研究团队还创建了一个名为“SubjectPlop”的数据集，旨在为该领域的评估与后续发展提供便利和支持。

主要功能：

风格感知拖放：用户可以将一个图片中的主题拖放到另一张风格迥异的图片上，Magic Insert 会智能地调整这个主题，使其风格与新背景相匹配。

主要特点：

风格一致性：确保插入的主题在风格上与目标图片保持一致。
真实感：生成的图像在视觉上看起来非常真实，包括光影效果和细节处理。
灵活性：用户可以根据需要调整主题的风格化程度，以及对原始主题细节的忠实度。

工作原理：

Magic Insert 的工作原理可以分成两个主要部分：

风格感知个性化：首先，它使用一种称为 LoRA（Low-Rank Adaptation）的技术来微调一个预训练的文本到图像的扩散模型，同时学习主题图片中的文本标记，然后将这个模型与目标风格的 CLIP（Contrastive Language-Image Pre-training）表示结合。
现实对象插入：使用一种称为 Bootstrapped Domain Adaptation 的技术，将一个特定领域的逼真对象插入模型适应到多样化的艺术风格领域。这种方法允许模型逐步调整其初始分布，以适应目标分布。