FlashPortrait:端到端生成无限长度肖像动画,6倍加速且身份一致

视频模型10小时前发布 小马良
4 0

肖像动画(Portrait Animation)任务中,身份一致性推理效率是两大长期瓶颈。现有扩散模型即便能生成逼真短片,也常在长序列中出现身份漂移、颜色偏移或动作断裂,且生成速度慢,难以用于实际场景。

复旦大学、微软亚洲研究院、西安交通大学、腾讯、阿里巴巴联合提出的 FlashPortrait,首次实现了端到端、无限长度、高保真、身份稳定的肖像动画生成,并在推理速度上实现 高达 6 倍的加速——所有视频直接合成无需任何换脸或面部修复后处理(如 FaceFusion、GFP-GAN、CodeFormer)。

FlashPortrait:端到端生成无限长度肖像动画,6倍加速且身份一致

三大技术突破,直击行业痛点

❌ 问题1:长视频身份不稳定

扩散模型在长时间生成中,因潜在空间漂移导致角色“越长越不像”。

✅ 归一化面部表情块(Normalized Facial Expression Block)

  • 使用预训练特征提取器获取身份无关的面部表情特征
  • 计算其与扩散潜在表示的均值与方差,进行归一化对齐;
  • 显著缩小两者分布差距,强化身份锚定,从源头提升稳定性。

📌 关键设计:身份由参考图固定,表情由驱动信号控制,二者解耦。

❌ 问题2:生成速度慢,无法实用

标准扩散模型需数十步去噪,生成1秒视频常耗时数秒。

✅ 自适应潜在预测加速机制(Adaptive Latent Prediction)

  • 在每个滑动窗口内,利用高阶隐变量导数(通过历史步差分近似);
  • 通过动态阶数的泰勒展开,直接预测未来多步的潜在表示;
  • 跳过冗余去噪步骤,推理速度提升 3–6 倍(实测平均 4.8 倍)。

❌ 问题3:长视频片段拼接不自然

分块生成易导致边界闪烁或动作跳变。

✅ 加权滑动窗口融合(Weighted Sliding Window)

  • 窗口间设置重叠区;
  • 对重叠区域的潜在表示进行时间加权融合
  • 确保动作、光照、身份在数千帧内平滑过渡。
FlashPortrait:端到端生成无限长度肖像动画,6倍加速且身份一致

性能表现:速度与质量双领先

定量评估(VoxCeleb2 / VFHQ / Hard100)

指标FlashPortrait对比方法(如 Wan-Animate)
AED(动作误差)↓30.9%基线
APD(姿态误差)↓30.4%基线
MAE(像素误差)↓37.5%基线
推理速度3–6 倍加速

在 FID、FVD、PSNR、SSIM 等通用指标上,FlashPortrait 也全面领先。

定性效果

  • 成功生成超过 3000 帧(约 2 分钟)的连续视频;
  • 全程无身份漂移、无颜色偏移、无后处理依赖
  • 背景保持稳定,前景动作精准跟随驱动信号。

用户研究

身份一致性、动作自然度、画面质量、整体偏好四项主观评价中,92.8% 的用户选择 FlashPortrait 优于对比模型

无需后处理:端到端生成的工程意义

与多数“生成+换脸+修复”流水线不同,FlashPortrait 端到端输出最终视频。这意味着:

  • 流程简化:无需部署 FaceFusion 等第三方工具;
  • 质量可控:避免后处理引入的 artifacts(如边缘伪影、肤色失真);
  • 部署轻量:更适合集成到直播、虚拟人、移动端等资源敏感场景。
© 版权声明

相关文章

暂无评论

none
暂无评论...