在时尚设计和虚拟试穿领域,传统的图像生成方法往往受限于单一的输入模式(如仅支持文本提示或单个参考图像),并且难以处理复杂的个性化需求,如多件服装的组合、多样化的姿势和人体形态。为了克服这些局限性,香港大学、阿里巴巴达摩院、浙江大学和湖畔实验室的研究人员共同提出了FashionComposer——一个高度灵活的组合式时尚图像生成系统。FashionComposer能够处理多模态输入,包括文本提示、参数化人体模型、服装图像和面部图像,支持在一次处理中个性化人物的外观、姿势和体型,并分配多个服装。这个系统展示了高度的灵活性,能够支持多种与时尚相关的应用,如可控模特图像生成、虚拟试穿、人物相册生成等。
- 项目主页:https://sihuiji.github.io/FashionComposer-Page
- GitHub:https://github.com/SihuiJi/FashionComposer
例如,一个时尚博主想要创建一系列不同风格的穿搭照片,但不想实际购买或穿着这些服装。使用FashionComposer,博主可以上传自己的面部照片、选择不同的服装图片,以及描述期望的风格和姿势的文本提示。系统将这些输入组合起来,生成一系列博主穿着不同服装、摆出不同姿势的时尚照片,就像在专业的摄影棚里拍摄的一样。
FashionComposer的核心特点
1. 多模态输入支持
FashionComposer能够接受多种类型的输入,包括:
- 文本提示:用于描述所需的服装风格、颜色、材质等细节。
- 参数化人体模型:允许用户指定模特的体型、姿势等信息。
- 服装图像:用户可以上传多件服装的图片,作为生成的参考。
- 面部图像:支持添加特定的面部特征,使生成的图像更加个性化。
通过这种多模态输入机制,FashionComposer能够满足用户对多样化和个性化时尚图像的需求。
2. 组合式生成能力
FashionComposer的最大亮点在于其强大的组合式生成能力。它可以在一次操作中分配多件服装,并将它们无缝地融合到生成的图像中。此外,模型还支持以下应用:
- 模特图像生成:根据用户的输入,生成具有特定体型、姿势和服装搭配的模特图像。
- 虚拟试穿:用户可以上传自己的照片或选择预设的模特,尝试不同的服装搭配效果。
- 人体相册生成:为用户提供一系列不同姿态和服装组合的图像,形成一个完整的“人体相册”。
3. 资产库与参考UNet
为了实现多个参考图像(如服装和面部)的无缝集成,研究人员引入了一个“资产库”概念。所有参考图像被组织在单张图像中,形成一个统一的资产库。模型使用参考UNet提取每个资产的外观特征,并通过主体绑定注意力(subject-binding attention)机制,将这些特征与相应的文本特征绑定在一起。这样,模型可以根据语义理解每个资产,支持任意数量和类型的参考图像。
4. 主体绑定注意力(Subject-Binding Attention)
主体绑定注意力是FashionComposer的核心创新之一。它确保了来自不同资产的外观特征能够准确地注入到生成结果中的正确像素位置。具体来说,主体绑定注意力机制通过以下步骤工作:
- 特征提取:从资产库中提取每件服装和面部的外观特征。
- 文本特征编码:将用户的文本提示通过交叉注意力机制进行编码。
- 特征绑定:将提取的外观特征与相应的文本特征绑定,确保每个资产的特征都能准确地反映用户的意图。
- 去噪生成:通过特征注入注意力机制,将绑定后的特征注入到生成过程中,完成最终的图像生成。
工作原理
FashionComposer基于Stable Diffusion模型构建,使用变分自编码器(VAE)、去噪UNet和文本编码器。它通过以下步骤工作:
- 输入处理:将文本提示、人体模型参数、服装图像和面部图像等输入整合。
- 特征提取:使用参考UNet提取参考图像的多级特征,并使用主题绑定注意力将这些特征与文本特征绑定。
- 生成过程:通过去噪UNet进行生成过程,同时考虑文本提示和视觉资产的特征,生成最终的时尚图像。
- 一致性维护:通过对应感知注意力和潜在代码对齐技术,生成具有一致身份的人物图像系列。
应用演示
1. 姿势定制
用户可以通过参数化人体模型指定模特的姿势,生成具有不同姿态的时尚图像。无论是在T台上行走、站立还是做动作,FashionComposer都能根据用户的输入生成逼真的图像。
2. 带背景的多服装组合
FashionComposer不仅支持多件服装的组合,还可以在生成的图像中添加背景。用户可以选择自己喜欢的场景,如街头、工作室或自然景观,使生成的图像更加丰富和真实。
3. 带面部的多服装组合
用户可以上传自己的面部图像或选择预设的面部模板,生成带有特定面部特征的时尚图像。无论是尝试不同的发型、妆容还是表情,FashionComposer都能满足用户的需求。
4. 多服装虚拟试穿
FashionComposer的虚拟试穿功能允许用户上传自己的照片,尝试不同的服装搭配。用户可以轻松切换不同的服装组合,查看各种搭配效果,帮助他们做出更好的购买决策。
评论0