Magic Mirror框架:生成具有身份保持(ID-Preserved)和动态运动的高质量视频

香港中文大学、香港科技大学、思谋科技和卡内基梅隆大学的研究人员推出Magic Mirror框架,旨在生成具有身份保持(ID-Preserved)和动态运动的高质量视频。尽管视频扩散模型在文本到视频生成方面取得了显著进展,但在保持一致的身份特征的同时生成自然运动的视频仍然是一个挑战。

Magic Mirror通过引入三个关键组件来解决这一问题:(1)双分支面部特征提取器,用于捕获身份和结构特征;(2)轻量级跨模态适配器,结合条件自适应归一化以高效整合身份信息;(3)两阶段训练策略,结合合成身份对和视频数据进行训练。例如,Magic Mirror可以根据一张特定人物的照片,生成一段视频,视频中的人物不仅保持与照片中相同的面部特征,还能进行自然的表情和动作变化。

主要功能

  • 身份保持:在视频生成过程中,Magic Mirror能够保持人物的身份特征,确保视频中的人物与参考图像中的身份一致。
  • 动态运动生成:生成的视频具有自然的动态面部运动和身体动作,使视频更加生动和真实。
  • 高质量视频合成:生成的视频具有电影级别的质量,能够在视觉上吸引观众。

主要特点

  • 双分支面部特征提取:通过同时提取高层身份特征和面部结构信息,Magic Mirror能够更准确地保持人物的身份特征。
  • 条件自适应归一化:该模块有效地将身份条件整合到预训练的基础模型中,增强了模型在不同模态之间的特征融合能力。
  • 两阶段训练策略:通过先在图像数据上进行预训练,再在视频数据上进行微调,Magic Mirror能够在保持身份特征的同时,生成具有时间一致性的视频。

工作原理

Magic Mirror的工作流程主要包括以下几个步骤:

  • 面部特征提取:使用双分支特征提取器从参考图像中提取面部特征,包括身份特征和结构特征。
  • 特征融合与适配:通过跨模态适配器和条件自适应归一化模块,将提取的面部特征与文本和视频特征进行融合,生成身份保持的视频。
  • 视频生成:在预训练的扩散模型基础上,利用融合后的特征生成高质量的视频,确保视频中的人物身份一致且动作自然。

具体应用场景

  • 虚拟内容创作:在虚拟现实(VR)、增强现实(AR)或游戏等领域,可用于创建具有特定身份角色的动态视频内容。例如,在一款角色扮演游戏中,根据玩家自定义的角色形象生成相应的动画视频,使玩家的角色在游戏世界中具有更加生动的表现,增强游戏的沉浸感和趣味性。
  • 个性化视频制作:满足用户对个性化视频的需求,如个人纪念视频、社交媒体短视频等。用户可以提供自己的照片,Magic Mirror 生成包含其本人形象的视频,如生日祝福视频、旅行回忆视频等,让视频更具独特性和情感价值。
  • 影视特效与后期制作:在影视制作中,对于一些需要特定角色在不同场景中出现的特效镜头或补拍场景,可利用该技术快速生成符合角色身份的视频片段,提高制作效率和质量,降低拍摄成本和难度。
0

评论0

没有账号?注册  忘记密码?