Go-with-the-Flow:通过实时扭曲噪声实现对视频生成的运动控制

Netflix Eyeline Studios、Netflix、石溪大学、马里兰大学和斯坦福大学的研究人员推出一种简单高效的控制视频扩散模型运动模式的方法Go-with-the-Flow ,通过实时扭曲噪声(warped noise)实现对视频生成的运动控制。该方法的核心在于通过光学流(optical flow)引导的噪声扭曲算法,将随机噪声转换为具有结构化运动的噪声,从而在视频生成中实现对物体运动、相机运动以及运动转移的精细控制。这种方法不仅简单易实现,而且能够与现有的视频扩散模型无缝集成,无需对模型架构或训练流程进行任何修改。

例如,有一个输入视频,其中包含一个旋转的风车。使用 Go-with-the-Flow 方法,可以通过简单的用户界面(如拖动风车的叶片)来控制风车的旋转速度和方向,同时保持视频的其他部分不变。此外,该方法还可以将输入视频中的运动转移到一个新的背景或场景中,例如将风车的旋转运动转移到一个虚拟的森林环境中。

主要功能

  1. 局部物体运动控制:用户可以通过简单的界面(如拖动、旋转和缩放多边形)来控制视频中特定物体的运动。
  2. 全局相机运动控制:通过提供全局光流场,用户可以控制相机的运动,例如平移、旋转等。
  3. 运动转移:将一个视频中的运动转移到另一个视频或场景中,支持从参考视频到目标上下文的运动转移。
  4. 实时噪声扭曲:通过高效的噪声扭曲算法,实时生成与运动一致的噪声,支持大规模视频扩散模型的训练。

主要特点

  1. 简单易用:该方法仅通过改变数据预处理方式,将随机噪声替换为与运动相关的扭曲噪声,无需对视频扩散模型进行任何架构或训练流程的修改。
  2. 高效实时:提出了一种新的噪声扭曲算法,能够在实时运行中快速生成扭曲噪声,比现有的方法(如 HIWYN)快26倍。
  3. 保持高斯分布:通过精心设计的噪声扭曲算法,确保扭曲后的噪声仍然保持空间上的高斯分布,从而在生成的视频中保持每帧的像素质量。
  4. 广泛的适用性:该方法可以应用于任何视频扩散模型,支持多种运动控制任务,包括局部物体运动控制、全局相机运动控制和运动转移。

工作原理

噪声扭曲算法

  • 输入:前一帧的噪声、前一帧的密度、前向和后向光流。
  • 过程:通过构建一个二分图,将前一帧的噪声和密度映射到当前帧。算法分为扩展(expansion)和收缩(contraction)两种情况,分别处理噪声的扩展和收缩。
  • 输出:当前帧的噪声和密度。
  • 理论保证:通过数学证明,该算法能够保持噪声的高斯分布,同时在时间上引入运动相关性。

视频扩散模型的微调

  • 数据预处理:使用噪声扭曲算法生成扭曲噪声,用于训练视频扩散模型。
  • 微调:在大规模视频数据集上对视频扩散模型进行微调,使用扭曲噪声代替传统的高斯噪声。
  • 噪声退化:引入噪声退化参数(noise degradation),允许用户在推理时控制运动的严格程度。

推理阶段

  • 输入:用户定义的运动信号(如物体运动轨迹、相机运动轨迹)。
  • 过程:根据输入的运动信号生成扭曲噪声,并将其用于初始化视频扩散模型的生成过程。
  • 输出:生成的视频,其中物体或相机的运动与用户定义的运动信号一致。

具体应用场景

  1. 视频编辑:通过控制物体运动或相机运动,实现视频的局部编辑,如添加或修改物体的运动轨迹。
  2. 动画制作:快速生成具有特定运动的动画视频,支持从简单草图或静态图像生成动态视频。
  3. 虚拟现实(VR)和增强现实(AR):生成与用户交互一致的动态场景,增强沉浸感。
  4. 游戏开发:实时生成具有特定运动的视频内容,支持游戏中的动态场景生成。
  5. 广告和影视制作:快速生成高质量的动态视频内容,支持创意广告和影视特效的制作。
0

评论0

没有账号?注册  忘记密码?