DynamicFace：一种面向图像与视频的高保真人脸交换方法

384 0

人脸交换（Face Swapping）技术旨在将一个人的身份特征迁移到另一个人的面部图像或视频中，同时保留目标人物的表情、姿态、发型和背景等属性。近年来，随着生成模型的发展，人脸交换已能生成高度逼真的结果。然而，一个普遍存在的问题是：在转移源身份的同时，模型常常“误伤”目标的表情细节，或未能完全剥离目标的身份信息，导致生成结果既不像源，也不够像目标应有的状态。

项目主页：https://dynamic-face.github.io

为解决这一问题，小红书、上海科技大学与上海交通大学的研究团队联合提出 DynamicFace ——一种基于扩散模型的新一代人脸交换框架。该方法不仅实现了更精准的身份迁移，还在表情保真、时间一致性和细粒度控制方面取得显著提升，适用于图像与视频场景。

传统方法的瓶颈

当前主流的人脸交换方法通常依赖于隐空间编辑或特征混合策略。尽管视觉效果已有明显进步，但仍面临三大挑战：

身份与表情耦合：身份信息与表情动态难以完全解耦，导致交换后表情僵硬或失真；
细节丢失：如眼动、口型变化等细微动作在生成过程中被模糊化；
视频闪烁：在视频应用中，帧间不一致引发闪烁、抖动等问题，影响观感。

DynamicFace 的设计正是针对这些问题展开，其核心思路是：通过可分解的 3D 面部先验实现条件解耦，并结合扩散模型的高质量生成能力，实现可控且一致的人脸重写。

DynamicFace 的三大技术亮点

1. 四种解耦的 3D 面部条件控制

DynamicFace 引入了基于 3DMM（3D Morphable Model）的四种细粒度条件输入，彼此独立、可组合使用：

条件	作用
背景图	保留原始图像背景，避免背景畸变
形状感知法线图	编码面部几何结构，融合源的脸型与目标的姿态
表情相关地标	精确捕捉目标的表情动态（如嘴角上扬、皱眉）
身份移除的 UV 纹理图	提取目标的光照与皮肤质感，但去除身份特征，防止干扰源身份注入

这些条件在潜在空间中作为引导信号输入扩散模型，使生成过程更具可控性与物理合理性。

2. 双路径身份注入机制

为了确保源身份高保真地迁移到目标面部，DynamicFace 设计了两个互补的身份注入模块：

Face Former：基于查询注意力机制，从预训练人脸识别模型中提取源人脸的全局身份特征，并将其注入扩散 U-Net 的中间层，增强语义一致性；
ReferenceNet：引入额外的参考分支，通过空间注意力机制融合源人脸的局部纹理细节（如痣、皱纹），提升纹理真实感。

这种“全局+局部”的双重注入策略，有效避免了身份漂移问题。

3. 视频时间一致性优化：FusionTVO

针对视频场景，DynamicFace 提出 FusionTVO（Fusion Total Variation Optimizer），专门用于提升帧间稳定性：

段感知潜在融合：对短片段内的潜在表示进行平滑融合，减少突变；
时间总变分正则化：约束相邻帧之间的潜在变化幅度，抑制闪烁与抖动。

该模块无需额外训练，可在推理阶段直接集成，显著提升视频流畅度。

工作流程概览

条件提取：从目标图像/视频帧中提取上述四种 3D 条件；
身份编码：从源人脸提取身份特征，经 Face Former 与 ReferenceNet 处理；
扩散生成：在扩散模型的去噪过程中，通过 Mixture-of-Guiders 机制融合所有条件与身份信号；
视频优化：对生成序列应用 FusionTVO，进行时间一致性后处理；
输出合成：重建为最终的人脸交换图像或视频。

整个流程支持端到端推理，且各模块可灵活替换，具备良好扩展性。

实验表现：全面领先

研究团队在 FaceForensics++（FF++) 数据集上进行了系统评估，涵盖图像与视频任务，主要指标包括：

指标	含义
身份检索准确率	衡量生成人脸是否与源身份一致
姿势误差	评估头部姿态保留程度
表情误差	衡量表情动态的还原精度
眼动/嘴部误差	细粒度动作保真度
CLIP 帧一致性、光流误差	视频时间稳定性