新型扩散模型框架VividFace：专门为视频换脸而设计

137 0

视频换脸技术近年来在各种应用中变得越来越流行，但现有方法主要集中在静态图像上，难以应对视频换脸中的时间一致性和复杂场景问题。为了解决这些问题，香港中文大学 MMLab、商汤科技研究院和 InnoHK 的研究人员提出了 VividFace，这是首个专门为视频换脸设计的基于扩散模型的框架。该框架通过结合静态图像数据和时间视频序列，解决了视频人脸交换中的时序一致性、复杂场景处理等挑战，提供了一个高保真度的视频人脸交换解决方案。

项目主页：https://hao-shao.com/projects/vividface.html
GitHub：https://github.com/deepcs233/VividFace

例如，我们有一段视频中的人物A，我们希望将A的脸部替换成人物B的脸部，同时保持视频中A的面部表情和姿态。VividFace能够利用人物B的静态图像和视频序列，通过扩散模型生成一个新视频，其中人物A的脸部被替换为B的脸部，同时保持原有的表情和动作的连贯性。

主要挑战

时间一致性：视频换脸需要确保生成的每一帧在时间上保持一致，避免闪烁和其他不自然的现象。
身份保留：在换脸过程中，必须确保目标人脸的身份特征（如面部结构）得到准确保留。
姿态和遮挡鲁棒性：处理大幅度的姿态变化和部分遮挡是视频换脸中的关键挑战。

方法概述

VividFace 通过引入一种新颖的 图像-视频混合训练框架 和 属性-身份解耦三元组（AIDT）数据集，解决了上述挑战。该框架结合了专门设计的扩散模型和 VidFaceVAE，能够有效处理静态图像和时间视频序列，从而更好地保持生成视频的时间一致性。

关键技术创新

1、图像-视频混合训练框架：

训练数据选择：在训练过程中，框架随机选择静态图像或视频序列作为训练数据。这种混合训练方式利用了丰富的静态图像数据和时间视频序列，解决了仅视频训练的固有限制。
多模态输入：除了噪声 ( z_t ) 外，框架还集成了三种其他类型的输入来指导生成过程：
- 人脸区域掩码：用于控制面部图像的生成。
- 3D 重建人脸：帮助引导姿态和表情，特别是在大幅度姿态变化的情况下。
- 带掩码的源图像：提供背景信息，确保生成的图像与原始视频背景的一致性。
骨干网络：这些输入通过骨干网络进行处理，执行去噪操作。骨干网络中采用了 交叉注意力 和 时间注意力机制，其中时间注意力模块确保帧之间的时间连续性和一致性。

2、属性-身份解耦三元组（AIDT）数据集：

数据集构建：AIDT 数据集中的每个三元组包含三张人脸图像，其中两张共享相同的姿态，两张共享相同的身份。通过全面的遮挡增强，该数据集还提高了对遮挡的鲁棒性。
解耦能力：AIDT 数据集使 人脸编码器 能够解耦并融合不同的面部组件——身份特征、源人脸的纹理特征以及解耦人脸的属性特征。这增强了泛化能力，特别是在推理过程中源人脸和目标人脸属于不同个体时。

3、VidFaceVAE：