新型可控图像动画方法MOFA-Video:能够根据给定的图像和额外的可控信号(例如人体标记、手动轨迹或提供的其他视频)或它们的组合生成视频

来自东京大学和腾讯AI实验室推出新型可控图像动画方法MOFA-Video,能够根据给定的图像和额外的可控信号(例如人体标记、手动轨迹或提供的其他视频)或它们的组合,从给定的图像中生成视频。这与以往的方法不同,以往的方法只能在特定的运动领域工作,或者在扩散先验下显示出较弱的控制能力。

为了实现目标,开发人员设计了几种领域感知的运动场适配器(即,MOFA-适配器),在视频生成流程中控制生成的运动。对于MOFA-适配器,开发人员首先考虑视频的时间运动一致性,从给定的稀疏控制条件下生成密集的运动流,然后将给定图像的多尺度特征包裹为引导特征,以实现稳定的视频扩散生成。鉴于手动轨迹和人体关键点都包含了关于控制的稀疏信息,开发人员直观地分别为这两种情况训练了两个运动适配器。训练完成后,不同领域的MOFA-适配器可以协同工作,实现更可控的视频生成。

例如,你是一名动画制作者,想要将一张静态图片中的人物制作成动画。使用MOFA-Video,你可以简单地提供一张图片和一些控制信号,比如人物面部的关键点或者人物的运动轨迹。MOFA-Video将根据这些信息生成一个动画视频,其中人物的动作和表情会根据你提供的控制信号进行动画化。这种方法不仅快速,而且可以生成非常自然和逼真的动画效果,非常适合需要快速动画制作或个性化动画内容的场景。

主要功能:

  • 可控图像动画: MOFA-Video可以根据用户提供的控制信号生成视频,这些信号可以是手动绘制的轨迹、人体标记序列,甚至是其他提供的视频。
  • 多种适配器: 论文中设计了几种领域感知的运动场适配器(MOFA-Adapters),用于控制视频生成流程中的生成动作。

主要特点:

  • 零样本组合: 不同领域的MOFA-Adapters可以在不重新训练的情况下一起工作,实现更可控的视频生成。
  • 时间运动一致性: 在考虑视频的时间运动一致性的同时,从给定的稀疏控制条件生成密集的运动流。
  • 多尺度特征引导: 利用给定图像的多尺度特征作为稳定视频扩散生成的引导特征。

工作原理:

  1. 稀疏到密集的运动生成网络(S2D): 首先使用给定的稀疏运动提示生成密集的运动场。
  2. 参考图像编码器: 提取第一帧的多尺度特征,用于后续的图像变形和生成过程。
  3. 特征融合编码器: 将变形的特征添加回预训练的视频扩散模型中,以进行生成指导。

具体应用场景:

  • 手动轨迹动画: 用户可以手动绘制轨迹,MOFA-Video根据这些轨迹生成动画。
  • 面部标记序列动画: 使用如SadTalker这样的工具从音频生成面部标记序列,然后MOFA-Video可以根据这些标记序列生成面部动画。
  • 组合适配器: 可以同时使用多个MOFA-Adapters,例如结合手动轨迹和人体标记,以实现更复杂的动画效果。
0

评论0

没有账号?注册  忘记密码?