比勒费尔德大学 CITEC 机器学习小组提出了一项新颖的任务——虚拟脱衣(Virtual Try-Off, VTOFF),旨在从穿着衣服的单张照片中生成标准化的服装图像。与传统的虚拟试穿(Virtual Try-On, VTON)不同,VTON是将数字服装“穿上”模特,而VTOFF的目标是从照片中提取规范的服装图像,这一任务带来了捕捉服装形状、纹理和复杂图案的独特挑战。
VTOFF 的独特挑战
- 捕捉服装形状:服装在人体上的褶皱、拉伸和变形需要被准确还原为平坦的、未穿着的状态。
- 保留纹理和细节:服装上的细微纹理、图案和颜色必须在生成的图像中得到高保真度的保留。
- 处理复杂图案:许多服装设计包含复杂的图案和装饰,这些元素在生成过程中容易丢失或失真。
TryOffDiff:基于SigLIP的视觉条件调整Stable Diffusion
- 项目主页:https://rizavelioglu.github.io/tryoffdiff
- 模型:https://huggingface.co/rizavelioglu/tryoffdiff
- Demo:https://huggingface.co/spaces/rizavelioglu/tryoffdiff
为了应对这些挑战,研究团队提出了 TryOffDiff,这是一种基于 Stable Diffusion 的生成模型,通过 SigLIP(一种强大的视觉语言模型)进行条件调整,确保生成的服装图像具有高保真度和细节保留。具体来说:
- SigLIP 条件化:TryOffDiff 使用 SigLIP 提取输入图像中的关键视觉特征,并将其作为条件输入到 Stable Diffusion 中,指导生成过程。这使得模型能够更好地理解服装的形状、纹理和细节,从而生成更逼真的结果。
- 姿态转移:TryOffDiff 还利用姿态估计技术,确保生成的服装图像在不同的姿态下保持一致的形状和结构,避免了因人体姿势变化而导致的变形问题。
例如,你是一名在线购物者,想要在购买前看到某件衣服穿在自己身上的效果。传统的VTON技术会将这件衣服“穿”到一个模特身上,而VTOFF则能够从你穿着这件衣服的照片生成一个标准化的产品图像,这个图像可以用于电子商务目录,展示衣服的全貌,包括细节如图案和标志。
主要功能
- 高保真服装重建:TryOffDiff能够从单张参考图像中重建出服装的细节,包括图案和标志。
- 标准化产品图像生成:生成的图像符合商业目录标准,展示服装的标准视图。
- 减少预处理和后处理步骤:与基线方法相比,TryOffDiff需要的预处理和后处理步骤更少。
主要特点
- 高保真度和细节保留:TryOffDiff通过Stable Diffusion和基于SigLIP的视觉条件来确保高保真度和细节保留。
- 改进的评价指标:传统的图像生成指标不足以准确评估重建质量,论文提出了使用DISTS(Deep Image Structure and Texture Similarity)指标进行更准确的评估。
- 环境影响:通过帮助客户做出更好的购买决策,减少产品退货和时尚行业的环境足迹。
工作原理
TryOffDiff模型基于Stable Diffusion,通过替换文本提示为直接的图像引导图像生成。它使用SigLIP模型作为图像特征提取器,并保留整个序列的令牌表示,以保留空间信息,这对于捕捉细粒度视觉细节和准确重建服装至关重要。通过将图像特征嵌入到Stable Diffusion的去噪U-Net中,模型能够在生成过程中对外部参考图像的特征进行条件化,从而增强输出的对齐性。
实验与评估
研究团队在修改后的 VITON-HD 数据集 上进行了实验,该数据集包含大量高质量的服装图像及其对应的穿着状态。实验结果表明,TryOffDiff 在基于姿态转移和虚拟试穿的基线方法上表现更好,尤其是在以下几个方面:
- 重建保真度:TryOffDiff 生成的服装图像在形状、纹理和细节上表现出更高的保真度,能够更准确地还原原始服装的外观。
- 减少预处理和后处理步骤:与传统方法相比,TryOffDiff 需要的预处理和后处理步骤更少,简化了整个生成流程。
评估指标的选择
传统的图像生成指标(如 PSNR、SSIM 等)在评估重建质量时存在局限性,因为它们无法充分捕捉服装图像中的细节和复杂性。因此,研究团队选择了 DISTS(Distortion-Impact-based Structural Similarity)作为主要评估指标,该指标能够更准确地衡量生成图像与真实图像之间的相似性,特别是在细节保留和结构一致性方面。
应用潜力
VTOFF 和 TryOffDiff 在多个领域具有广泛的应用潜力:
- 电子商务:VTOFF 可以帮助电商平台增强产品图像,提供更真实的商品展示,提升用户的购物体验。例如,用户可以通过上传自己穿着某件衣服的照片,快速获得该服装的标准化图像,方便比较不同款式。
- 生成模型评估:VTOFF 为评估生成模型的重建保真度提供了一个新的基准任务,能够更全面地测试模型在处理复杂图像时的表现。
- 未来研究方向:VTOFF 的引入激发了未来在高保真图像重建、姿态不变性生成等方面的研究工作,推动了生成模型技术的进步。
评论0