新型个性化图像生成方法Infinite-ID:保持特定身份特征的同时,根据用户的文本描述生成高质量的图像

来自中国科学技术大学和悉尼大学的研究人员推出新型个性化图像生成方法Infinite-ID,它能够在保持特定身份特征的同时,根据用户的文本描述生成高质量的图像。这是一个全新的ID-语义解耦范式,专门用于身份保留个性化。

想象一下,你给这个模型一张某人的照片和一段描述,比如“穿着紫色连衣裙的女性,在海滩上看日落,漫画风格”,它就能生成一系列既保持了照片中人物特征,又符合描述场景和风格的个性化图像。

主要功能:

  • 身份保持个性化: 根据单张参考图片和文本描述生成保持人物身份特征的个性化图像。
  • 风格化图像生成: 能够将生成的图像应用不同的艺术风格,如漫画、油画等。

主要特点:

  • 高身份保真度: 通过创新的训练方法和注意力机制,确保生成图像中的人物与参考图片保持高度相似。
  • 语义一致性: 通过解耦身份信息和文本信息,提高了文本描述的语义一致性。
  • 风格控制: 引入了自适应实例归一化(AdaIN)操作,可以方便地控制生成图像的风格。

工作原理:Infinite-ID的工作原理分为两个阶段:

  1. 训练阶段: 采用身份增强训练,通过额外的图像交叉注意力模块捕捉身份信息,同时停用原始文本交叉注意力模块,以减少文本输入的干扰。
  2. 推理阶段: 在生成图像时,使用混合注意力模块和AdaIN均值操作,将身份信息和文本信息有效融合,生成既保持身份特征又符合文本描述的图像。

具体应用场景:

  • 个性化AI肖像: 根据用户提供的参考图片和描述,生成具有特定身份特征的个性化肖像。
  • 虚拟试穿: 在线购物中,用户可以上传自己的照片和想要尝试的服装风格,模型生成穿着特定服装的个性化图像。
  • 艺术创作: 艺术家可以利用这个模型将现实中的人物以不同的艺术风格重新创作,如将照片转换成梵高画风或动漫风格。

Infinite-ID是一个强大的个性化图像生成工具,它通过创新的方法解决了身份保真度和语义一致性之间的平衡问题,为用户提供了高度定制化的图像生成体验。

0

评论0

没有账号?注册  忘记密码?