FlashFace:允许用户通过提供一张或几张参考面部图像和文本提示来个性化他们的照片

来自香港大学、阿里和蚂蚁的研究团队推出FlashFace,它允许用户通过提供一张或几张参考面部图像和文本提示来个性化他们的照片。

FlashFace的特点是能够更高精度地保留身份特征,并且更好地遵循文本指令,这得益于它的两个巧妙设计:首先,它将面部身份编码到一系列特征图中,而不是像以前的方法那样编码到一个图像标记中,这样可以保留更多的参考面部细节(如疤痕、纹身和脸型);其次,它引入了一种解耦的整合策略,在文本到图像的生成过程中平衡文本和图像的引导,减轻了参考面部和文本提示之间的冲突(例如,将成年人个性化为“儿童”或“老人”)。

例如,如果用户想要将一张成年人的照片个性化为一个“孩子”,FlashFace可以根据提供的参考图像和文本提示“孩子”生成一张新的图片,同时保留原始照片中的面部特征,如独特的疤痕或纹身。这样,生成的图像既符合文本提示的要求,又保留了原始身份的详细信息。

主要功能和特点:

  1. 高保真身份保留: FlashFace能够生成保留更多细节的高保真图像。
  2. 更好的指令遵循: 通过解耦的整合策略,FlashFace能够更准确地根据文本提示生成图像,即使这些提示与参考图像存在冲突。
  3. 无需训练: FlashFace是一种零样本(zero-shot)方法,可以在不需要额外训练的情况下即时工作。

工作原理:

FlashFace通过一个参考网络(Face ReferenceNet)将参考图像编码为一系列特征图,并通过额外的参考注意力层将这些特征整合到U-Net解码器中。这些层与用于文本条件的交叉注意力层是分开的,确保两种控制信号是解耦的。此外,用户可以调整由参考注意力层产生的特征的权重,通过与无分类器引导结合,实现对面部参考强度的平滑控制。

具体应用场景:

  1. 个性化人像: 用户可以根据自己的参考照片和文本描述来生成个性化的人像,例如,将成年人的照片个性化为儿童或老人的形象。
  2. 面部交换: 在不同的语言提示下进行面部交换,例如,将一张真实人物的照片转换成艺术作品风格。
  3. 虚拟角色转真人: 将虚拟角色转换成真实人物的照片,或者反过来,将真实人物转换成虚拟艺术作品中的角色。
0

评论0

没有账号?注册  忘记密码?