NXN Labs推出新型虚拟试穿框架Voost:通过一个统一的扩散变换器同时实现虚拟试穿(试穿目标服装)和虚拟试脱(从人像中重建原始服装)功能

新技术4个月前发布 小马良
239 0

NXN Labs推出新型虚拟试穿框架Voost,通过一个统一的扩散变换器(Diffusion Transformer)同时实现虚拟试穿(试穿目标服装)和虚拟试脱(从人像中重建原始服装)功能。

该框架通过联合学习两个方向的任务,增强了服装与人体之间的对应关系建模,从而在多样的姿态、服装类型、背景、光照条件和图像分辨率下生成高质量的结果。

NXN Labs推出新型虚拟试穿框架Voost:通过一个统一的扩散变换器同时实现虚拟试穿(试穿目标服装)和虚拟试脱(从人像中重建原始服装)功能

主要功能

  • 虚拟试穿(Virtual Try-On):将目标服装合成到目标人像上,生成逼真的试穿效果。
  • 虚拟试脱(Virtual Try-Off):从穿着服装的人像中重建出原始服装的外观。
  • 双向一致性:通过联合学习试穿和试脱任务,确保生成的试穿结果能够通过试脱任务还原出原始服装,从而增强模型的鲁棒性和一致性。
  • 灵活的条件生成:支持对生成方向(试穿或试脱)和服装类别(上衣、下装、全身)的灵活条件控制。

主要特点

  • 统一框架:在一个扩散变换器中同时处理虚拟试穿和虚拟试脱任务,无需任务特定的网络、辅助损失或额外标签。
  • 可扩展性:支持动态输入布局,能够处理不同分辨率、长宽比和空间布局的图像。
  • 注意力机制增强:通过注意力温度缩放和自校正采样技术,提高模型对输入分辨率变化和遮罩变化的鲁棒性。
  • 高质量生成:在试穿和试脱任务上均实现了最先进的性能,生成结果在对齐精度、视觉保真度和泛化能力上优于现有方法。

工作原理

Voost 的核心是一个基于扩散模型的变换器架构,通过以下步骤实现虚拟试穿和试脱:

  1. 输入处理:将服装图像和目标人像水平拼接,形成一个联合输入图像。通过二值遮罩定义试穿或试脱任务的区域。
  2. 编码与解码:使用冻结的编码器将输入图像编码到潜在空间,然后通过扩散模型的去噪过程生成目标图像。
  3. 双向学习:通过联合训练试穿和试脱任务,模型能够从每个服装-人像对中学习双向监督,从而增强服装与人体之间的对应关系。
  4. 注意力温度缩放:在推理阶段,通过动态调整注意力温度,适应输入图像的分辨率和遮罩比例变化,提高生成结果的鲁棒性。
  5. 自校正采样:利用试穿和试脱任务之间的双向一致性,在推理过程中通过迭代优化生成结果,进一步提高视觉质量和细节保真度。
NXN Labs推出新型虚拟试穿框架Voost:通过一个统一的扩散变换器同时实现虚拟试穿(试穿目标服装)和虚拟试脱(从人像中重建原始服装)功能

测试结果

  • 定量评估:在 VITON-HD 和 DressCode 数据集上,Voost 在试穿任务上的 Fréchet Inception Distance (FID)、Kernel Inception Distance (KID)、LPIPS 和 SSIM 等指标上均优于现有方法。例如,在 VITON-HD 数据集上,Voost 的 FID 为 5.269,KID 为 0.404,SSIM 为 0.898,LPIPS 为 0.056。
  • 定性评估:通过用户研究,Voost 在视觉逼真度、服装细节和结构保持方面均获得了最高的用户偏好率。
  • 泛化能力:在真实世界图像上,Voost 能够处理多种服装类型(包括上衣、下装和全身服装),并生成高质量的试穿和试脱结果。
© 版权声明

相关文章

暂无评论

none
暂无评论...