AI视频生成系统Direct-a-Video:像导演拍摄视频一样生成视频

Direct-a-Video是一个AI视频生成系统,该系统允许用户独立地为一个或多个对象和/或相机运动指定运动,就像导演拍摄视频一样。

开发者提出了一种简单而有效的策略,用于分别控制对象运动和相机运动。比如你只需要告诉它你想要什么样的对象运动(比如小狗跑动)和摄像机怎么移动(比如跟着小狗)

在Direct-a-Video项目中,用户可以控制以下类型的运动:

摄像机移动控制

  • 基础摄像机移动
  • 混合摄像机移动 (X+Y)
  • 混合摄像机移动 (X+Z)

对象运动控制

  • 摄像机移动和对象运动的联合控制
  • 静态框 + 混合摄像机移动
  • 单个移动框 + 混合摄像机移动
  • 多个移动框 + 混合摄像机移动

物体运动:用户可以指定一个或多个物体在视频中的具体运动路径,如前进、后退、上升、下降、旋转等。这意味着如果你想让视频中的一个球向左滚动,或者一个人物向摄像机走近,都可以通过文本指令实现。

摄像机移动:用户还可以控制摄像机的移动方式,包括平移(左右移动)、倾斜(上下移动)、缩放(放大或缩小画面)等。这可以帮助创造出从不同角度和距离观察场景的效果,比如模拟从高空俯瞰或者近距离跟踪某个物体的视角。

联合控制物体和摄像机运动:Direct-a-Video独特的功能在于,它允许用户同时控制物体的运动和摄像机的移动。这意味着你可以创作出更加动态和复杂的视频场景,比如在跟随一个移动物体的同时,摄像机也在进行缩放或者旋转,以创造出电影般的视觉效果。

工作原理:

Direct-a-Video通过两个主要机制实现对视频生成的细粒度控制:对象运动控制和相机移动控制。这两种控制机制独立运作,但也可以联合使用,为用户提供了高度的定制能力和创造性的自由。

以下是其工作原理的详细解释:

1、文本解析和意图理解:系统首先解析用户输入的文本,理解用户希望在视频中看到的摄像机移动和物体动作的具体要求。

2、对象运动控制

空间交叉注意调制:Direct-a-Video利用空间交叉注意调制来控制对象在视频中的运动。这种方法依赖于模型固有的先验知识,无需额外的优化过程。

用户通过输入文本提示来指定对象及其在视频中的运动轨迹(例如,一个对象从屏幕一边移动到另一边)。模型使用这些文本提示来引导对象在视频帧中的空间和时间放置。

3、相机移动控制

时间交叉注意层:为了模拟相机移动(如平移、缩放等),Direct-a-Video引入了时间交叉注意层。这些层能够解释用户通过参数指定的相机移动,从而在视频生成过程中实现相机视角的变化。

4、自监督学习:模型通过在小规模数据集上应用基于增强的自监督学习方法来训练时间交叉注意层,这一过程无需显式的运动注释。训练阶段,视频样本经过增强处理(例如模拟相机的平移和缩放),以训练模型理解和实现相机移动。

5、联合控制

用户可以单独控制对象运动或相机移动,也可以同时控制两者,实现更复杂的视频创作。例如,用户可以设计一个场景,其中一个对象在屏幕上移动,同时相机围绕场景进行平移和缩放,创造出动态且引人入胜的视频内容。

这种设计使得Direct-a-Video能够以一种非常灵活和动态的方式生成视频,用户可以通过简单的文本描述来“导演”视频中的场景,实现了高度个性化和创意的视频内容创作。

0

评论0

没有账号?注册  忘记密码?