腾讯混元项目组推出数字人头像生成模型 HunyuanPortrait :用于高度可控且逼真的肖像动画生成

视频模型6个月前发布 小马良
174 0

腾讯混元项目组推出基于扩散模型的条件控制方法 HunyuanPortrait ,用于高度可控且逼真的肖像动画生成。该方法通过隐式表示来控制肖像动画,能够利用单张肖像图像作为外观参考和视频片段作为驱动模板,生成具有面部表情和头部姿态的动画。官方表示,运行环境建议至少配备 16GB 显存。

简单来说这就是数字人头像生成模型,与去年快手开源的LivePortrait类似,给定一张静态的名人肖像和一段带有丰富表情的视频,HunyuanPortrait 可以生成该名人做出类似表情和头部动作的动画视频。

主要功能

  • 肖像动画生成:将静态肖像转化为具有丰富表情和头部动作的动画视频。
  • 高度可控性:通过隐式表示精确控制面部表情和头部姿态。
  • 风格适应性:能够适应不同的图像风格,如动漫风格、真实照片风格等。

主要特点

  • 高保真度:生成的动画在细节上与原始肖像高度一致,面部表情和头部动作自然流畅。
  • 强泛化能力:能够处理不同风格的肖像和驱动视频,适应各种面部几何形状和表情变化。
  • 时空一致性:生成的视频在时间和空间上具有高度一致性,避免了背景抖动和面部模糊等问题。

工作原理

  • 预训练编码器:使用预训练的编码器将肖像的运动信息和身份信息进行解耦,提取出粗略的运动特征。
  • 隐式表示:采用隐式表示来编码运动信息,并将其作为动画阶段的控制信号。
  • 适配器层:设计适配器层,通过注意力机制将控制信号注入到去噪 U-Net 中,增强细节和时空一致性。
  • 运动记忆库:引入运动记忆库,增强运动特征的上下文感知能力和时间建模能力。
  • 强度感知运动编码器:根据运动的强度调整运动特征的表示,提高对复杂运动的捕捉能力。
  • 细粒度外观提取器:结合 ArcFace 和 DiNOv2 背骨,增强对肖像身份和背景的建模能力。

测试结果

  • 定量评估:在多个数据集上进行测试,HunyuanPortrait 在 Fréchet Inception Distance (FID)、Fréchet Video Distance (FVD)、Landmark Mean Distances (LMD) 等指标上均优于现有方法。
  • 定性评估:通过用户研究,HunyuanPortrait 在面部运动、视频质量和时间平滑性方面均获得了较高的评分。
  • 泛化能力:在跨重演(cross-reenactment)场景中表现出色,能够有效处理不同面部几何形状和表情变化。
© 版权声明

相关文章

暂无评论

none
暂无评论...