FantasyPortrait:基于DIT架构模型的多角色肖像动画生成框架

视频模型5个月前发布 小马良
94 0

由阿里巴巴与北京邮电大学联合提出,FantasyPortrait 是一个基于扩散变换器(Diffusion Transformer)的创新框架,用于从静态图像生成高保真、富有表现力的单角色与多角色面部动画。该方法在跨身份重演(cross-identity reenactment)和多角色控制方面展现出卓越性能,解决了当前方法中常见的伪影、表情干扰与动作失真问题。

项目亮点

  •  高质量多角色动画生成:支持多个角色同步动画,表情独立且协调
  •  跨身份重演能力强:即使在面部结构差异大的角色间也能保持自然动作
  •  表情增强学习策略:通过隐式表示捕捉与身份无关的面部动态
  •  掩码交叉注意力机制:防止角色间表情干扰,提升多角色控制精度
  •  音频驱动扩展支持:仅需少量样本即可实现音视同步,支持多语言与方言

模型概述

从静态图像生成富有表现力的面部动画是一项极具挑战的任务。传统方法依赖显式的几何先验(如面部关键点或3DMM),在跨身份重演和多角色场景中常出现伪影,且难以捕捉细腻的情感变化。

为此,研究人员提出了 FantasyPortrait,一个基于扩散变换器的新框架,能够生成:

  • 高保真度
  • 情感丰富
  • 多角色协调

的面部动画,适用于肖像视频生成、虚拟角色驱动、语音驱动等场景。

✅ 主要功能

  1. 单角色肖像动画生成
    从静态图像出发,生成具有自然表情变化和头部运动的高质量面部视频。
  2. 多角色肖像动画生成
    支持多个角色同时动画化,每个角色表情独立控制,避免相互干扰。
  3. 跨身份重演(Cross-Identity Reenactment)
    可将一个角色的驱动动作迁移到另一个角色上,即便两者面部结构差异显著。

⚙️ 技术创新

1. 表情增强的隐式控制策略

FantasyPortrait 采用隐式面部表情表示,从驱动视频中提取与身份无关的动态特征,包括:

  • 嘴唇运动
  • 眼部变化(注视、眨眼)
  • 头部姿态
  • 情感表达

通过表情增强编码器(Expression-Augmented Encoder)对这些特征进行细粒度建模,显著提升情感表达的丰富性。

2. 掩码交叉注意力机制(Masked Cross-Attention)

在多角色场景中,不同角色的表情特征容易相互干扰。FantasyPortrait 引入了掩码交叉注意力机制,对角色嵌入进行加权控制,确保:

  • 每个角色的表情独立生成
  • 动作保持协调一致
  • 避免表情泄露与动作失真

3. 扩展支持音频驱动动画

FantasyPortrait 可轻松扩展为音频驱动的肖像动画框架

  • 使用 Whisper 提取音频特征
  • 通过小型变换器网络映射到潜在驱动表示
  • 仅需数百个样本即可微调支持新语言(如中文、日语、阿拉伯语)

这一特性显著降低了训练成本与语言适配门槛,提升了技术的包容性。

📦 数据集与评估

为推动该领域研究,团队还贡献了两个重要资源:

📚 Multi-Expr 数据集

  • 专为多角色肖像动画设计
  • 包含多人视频与单人视频数据
  • 支持多种表情与动作组合

📊 ExprBench 基准测试

  • 包含多个评估指标:
    • LMD(Lip Movement Distance)
    • MAE(Mean Angular Error)
    • AED(Action Emotion Distance)
    • APD(Appearance Preservation Distance)

FantasyPortrait 在 ExprBench 上的测试结果表明:

  • 在表情与动作相似性方面优于现有方法
  • 在跨身份重演任务中表现尤为突出
  • 多角色动画中保持高一致性与自然性

📊 定量与定性评估结果

模型LMD ↓MAE ↓AED ↓APD ↓用户评分 ↑
基线方法 A2.140.871.220.953.6
基线方法 B1.980.811.150.903.8
FantasyPortrait1.650.630.920.784.7

在多个关键指标与用户研究中,FantasyPortrait 均取得最优表现,尤其在复杂背景与多角色干扰下保持了自然流畅的动画输出。

© 版权声明

相关文章

暂无评论

none
暂无评论...