个性化图像生成新方法InstantFamily：在零样本的情况下，根据多个身份标识（Multi-ID）生成个性化的图像

423 0

韩国SK电信推出个性化图像生成新方法InstantFamily，它能够在零样本（zero-shot）的情况下，根据多个身份标识（Multi-ID）生成个性化的图像。这项技术特别适用于创建包含多个人物的图像，同时保持每个人的身份特征和视觉吸引力。开发人员通过利用与文本条件相结合的预训练人脸识别模型的全局和局部特征，有效地保留了身份。此外，InstantFamily的掩码交叉注意力机制使得在生成的图像中精确控制多身份和构图成为可能。

论文：https://arxiv.org/abs/2404.19427

例如，你想要创造一张包含你和你家人的图片，但不是简单地拍一张照片，而是通过文字描述来生成。比如说，你想要一张你们一家人在火星上的合影，但是你们并没有这样的照片。使用InstantFamily技术，你只需提供每个人的一张个人照片、你想要的场景描述（比如“火星”）以及每个人的姿势控制图像，这个系统就能生成一张你们一家人在火星上的合影。

个性化图像生成新方法InstantFamily：在零样本的情况下，根据多个身份标识（Multi-ID）生成个性化的图像

主要功能：

零样本多身份图像生成：能够根据多个身份标识生成图像，无需事先训练。
身份保留：确保生成的图像中每个人的身份特征都得到保留。
动态控制姿势和空间关系：允许用户控制图像中每个人的姿势和他们之间的空间关系。

主要特点：

遮蔽交叉注意力机制：一种新的机制，可以在生成图像时精确控制多个身份标识和构图。
多模态嵌入堆栈：使用面部识别模型的全局和局部特征，以及文本条件，来嵌入多个身份标识。
可扩展性：模型不仅能够处理训练时见过的身份数量，还能够处理更多数量的身份标识。

工作原理：

面部特征提取：使用面部识别模型提取面部的全局和局部特征。
多模态嵌入堆栈：将提取的面部特征与文本嵌入相结合，形成用于生成过程的条件。
遮蔽交叉注意力：在UNet和ControlNet中应用，通过遮蔽操作强调面部嵌入，同时保持文本嵌入的完整性。
训练与推理：在训练阶段，模型学习如何根据输入的身份标识图像和文本提示生成图像。在推理阶段，用户可以输入新的身份标识图像和文本提示，模型将生成相应的个性化图像。