字节跳动推出PuLID,它用于个性化文本到图像(Text-to-Image,简称T2I)的生成。PuLID的全称是“Pure and Lightning ID customization”,即纯粹和闪电般的身份定制。这种方法允许用户将预训练的文生图模型调整为符合他们个人的身份特征,而无需进行繁琐的参数调整或训练。
例如,你想在社交媒体上创建一个具有特定外观的头像,比如一个穿着特定风格服装、特定发型和肤色的卡通人物。使用PuLID,你可以直接将这些身份特征输入到模型中,快速生成一个符合描述的图像,而不需要进行复杂的训练或调整过程。此外,生成的图像在风格、光照和构图上与原始模型保持一致,这意味着你可以保持图像的整体风格,同时只改变与身份相关的部分。
主要功能:
- 身份定制:用户可以根据自己的身份特征定制图像生成模型,生成具有个人特征的图像。
- 无需调整:与需要微调的方法不同,PuLID不需要对每个身份进行时间消耗的优化。
- 高保真度:PuLID在保持身份特征(如面部、发型、肤色)的同时,尽量减少对原始模型行为的干扰。
主要特点:
- 无需训练:避免了为每个身份定制所需的时间成本。
- 高身份保真度:在不破坏原始模型行为的前提下,保持了图像中身份特征的高保真度。
- 编辑性:即使在插入身份特征后,模型仍然能够根据文本提示进行编辑,如改变身份属性、方向和配饰。
工作原理:
PuLID通过以下步骤实现身份定制:
- 并行分支:在标准的扩散去噪训练分支旁,引入了一个“Lightning T2I”分支,该分支使用快速采样方法从纯噪声快速生成高质量图像。
- 对比对齐损失:通过构建有无身份插入的对比对,语义上对齐两个对比路径的UNet特征,指导身份适配器如何插入身份信息而不影响原始模型的行为。
- 准确的身份损失:利用Lightning T2I分支生成的高质量图像,提取面部嵌入并计算准确的身份损失。
具体应用场景:
- 个性化AI肖像应用:如PhotoAI和EPIK,用户可以快速生成具有个人特征的AI肖像。
- 社交媒体:用户可以根据自己的外观生成独特的头像或社交媒体帖子。
- 娱乐和游戏:在游戏或虚拟现实中,PuLID可以用来生成具有特定身份特征的角色或场景。
评论0