新型扩散模型框架VividFace:专门为视频换脸而设计

视频换脸技术近年来在各种应用中变得越来越流行,但现有方法主要集中在静态图像上,难以应对视频换脸中的时间一致性和复杂场景问题。为了解决这些问题,香港中文大学 MMLab、商汤科技研究院和 InnoHK 的研究人员提出了 VividFace,这是首个专门为视频换脸设计的基于扩散模型的框架。该框架通过结合静态图像数据和时间视频序列,解决了视频人脸交换中的时序一致性、复杂场景处理等挑战,提供了一个高保真度的视频人脸交换解决方案。

例如,我们有一段视频中的人物A,我们希望将A的脸部替换成人物B的脸部,同时保持视频中A的面部表情和姿态。VividFace能够利用人物B的静态图像和视频序列,通过扩散模型生成一个新视频,其中人物A的脸部被替换为B的脸部,同时保持原有的表情和动作的连贯性。

主要挑战

  1. 时间一致性:视频换脸需要确保生成的每一帧在时间上保持一致,避免闪烁和其他不自然的现象。
  2. 身份保留:在换脸过程中,必须确保目标人脸的身份特征(如面部结构)得到准确保留。
  3. 姿态和遮挡鲁棒性:处理大幅度的姿态变化和部分遮挡是视频换脸中的关键挑战。

方法概述

VividFace 通过引入一种新颖的 图像-视频混合训练框架  属性-身份解耦三元组(AIDT)数据集,解决了上述挑战。该框架结合了专门设计的扩散模型和 VidFaceVAE,能够有效处理静态图像和时间视频序列,从而更好地保持生成视频的时间一致性。

关键技术创新

1、图像-视频混合训练框架

  • 训练数据选择:在训练过程中,框架随机选择静态图像或视频序列作为训练数据。这种混合训练方式利用了丰富的静态图像数据和时间视频序列,解决了仅视频训练的固有限制。
  • 多模态输入:除了噪声 ( z_t ) 外,框架还集成了三种其他类型的输入来指导生成过程:

    • 人脸区域掩码:用于控制面部图像的生成。
    • 3D 重建人脸:帮助引导姿态和表情,特别是在大幅度姿态变化的情况下。
    • 带掩码的源图像:提供背景信息,确保生成的图像与原始视频背景的一致性。
  • 骨干网络:这些输入通过骨干网络进行处理,执行去噪操作。骨干网络中采用了 交叉注意力  时间注意力机制,其中时间注意力模块确保帧之间的时间连续性和一致性。

2、属性-身份解耦三元组(AIDT)数据集

  • 数据集构建:AIDT 数据集中的每个三元组包含三张人脸图像,其中两张共享相同的姿态,两张共享相同的身份。通过全面的遮挡增强,该数据集还提高了对遮挡的鲁棒性。
  • 解耦能力:AIDT 数据集使 人脸编码器 能够解耦并融合不同的面部组件——身份特征、源人脸的纹理特征以及解耦人脸的属性特征。这增强了泛化能力,特别是在推理过程中源人脸和目标人脸属于不同个体时。

3、VidFaceVAE

  • 概述:VidFaceVAE 是一个能够同时对图像和视频数据进行编码和解码的模型。某些模块专门为视频输入设计,而图像输入则根据需要绕过这些模块。
  • 功能:VidFaceVAE 在编码和解码过程中有效地处理了静态图像和视频序列的不同特性,确保了生成结果的质量和一致性。

实验结果

大量实验表明,与现有方法相比,VividFace 在以下几个方面表现出色:

  • 身份保留:生成的视频中,目标人脸的身份特征得到了更好的保留。
  • 时间一致性:生成的每一帧在时间上保持一致,避免了闪烁和其他不自然的现象。
  • 视觉质量:生成的视频具有更高的视觉质量,特别是在处理大幅度的姿态变化和遮挡时。
  • 推理效率:所需的推理步骤更少,提升了生成速度和效率。
0

评论0

没有账号?注册  忘记密码?