ConsistentID:生成个性化人像图像时保持高度的面部身份(ID)一致性

来自 中山大学深圳校区、中山大学珠海校区、联想研究院和阿联酋起源人工智能研究院推出ConsistentID,它能够在生成个性化人像图像时保持高度的面部身份(ID)一致性。ConsistentID的核心在于使用单一参考图像来生成多样化的个性化ID图像,同时确保面部细节的精细控制和整体面部的一致性。

ConsistentID包含两大核心组成部分:一是多模态面部提示生成器,它融合了面部特征、与之对应的面部描述及整体面部语境,以提升面部细节描绘的精确度;二是经过面部注意力定位策略优化的身份保持网络,其目标是在面部各区域维持身份一致性。这两部分协同工作,通过引入来自面部区域的细粒度多模态身份信息,大幅度提升了身份保持的精确度。为了支持ConsistentID的训练,开发人员构建了一个名为FGID的细粒度肖像数据集,内含超过50万张面部图像,相较于现有的公开面部数据集(如LAION-Face、CelebA、FFHQ、SFHQ等),具有更高的多样性和完整性。

例如,你有一张自己的照片,想要生成一张穿着太空服的图像。使用ConsistentID,你只需提供这张照片和文本提示“一个人穿着太空服”,模型就能够生成一张新的图像,其中你的面部特征(如眼睛、鼻子和嘴巴的形状)与原照片保持高度一致,同时你身着太空服,实现了个性化和身份保持的完美结合。

主要功能:

  • 个性化人像生成:根据文本提示,使用单个参考图像生成具有多样化个性化特征的人像图像。
  • 面部身份保持:在生成过程中保持面部的关键特征,如眼睛、鼻子和嘴巴的细节,确保身份的一致性。

主要特点:

  1. 多模态面部提示生成器:结合面部特征、相应的面部描述和整体面部上下文,增强面部细节的精确度。
  2. ID保持网络:通过面部注意力定位策略优化,旨在在面部区域保持ID一致性。
  3. 细粒度数据集:提供了一个超过50万张面部图像的细粒度数据集FGID,用于训练和评估ConsistentID模型。

工作原理:

ConsistentID包括两个关键组件:

  1. 多模态面部提示生成器:利用大型多模态语言模型(如LLaVA1.5)来提取面部特征的详细描述,并结合面部区域的图像,生成精细的多模态面部特征。
  2. ID保持网络:接收来自多模态面部提示生成器的面部ID特征,并通过面部注意力定位策略,确保在生成过程中每个面部区域的ID信息得以保持。

具体应用场景:

  • 个性化广告:为电商平台生成与用户面部特征相匹配的广告图像。
  • 定制礼物:根据个人面部特征定制个性化礼物,如打印在杯子或T恤上的人像。
  • 虚拟试穿:在虚拟试衣间中生成与用户面部特征一致的头像,用于试穿衣服或配饰。
0

评论0

没有账号?注册  忘记密码?