Go-with-the-Flow：通过实时扭曲噪声实现对视频生成的运动控制

153 0

Netflix Eyeline Studios、Netflix、石溪大学、马里兰大学和斯坦福大学的研究人员推出一种简单高效的控制视频扩散模型运动模式的方法Go-with-the-Flow ，通过实时扭曲噪声（warped noise）实现对视频生成的运动控制。该方法的核心在于通过光学流（optical flow）引导的噪声扭曲算法，将随机噪声转换为具有结构化运动的噪声，从而在视频生成中实现对物体运动、相机运动以及运动转移的精细控制。这种方法不仅简单易实现，而且能够与现有的视频扩散模型无缝集成，无需对模型架构或训练流程进行任何修改。

项目主页：https://eyeline-research.github.io/Go-with-the-Flow
GitHub：https://github.com/Eyeline-Research/Go-with-the-Flow
模型：https://huggingface.co/Eyeline-Research/Go-with-the-Flow
ComfyUI插件：https://github.com/kijai/ComfyUI-VideoNoiseWarp

例如，有一个输入视频，其中包含一个旋转的风车。使用 Go-with-the-Flow 方法，可以通过简单的用户界面（如拖动风车的叶片）来控制风车的旋转速度和方向，同时保持视频的其他部分不变。此外，该方法还可以将输入视频中的运动转移到一个新的背景或场景中，例如将风车的旋转运动转移到一个虚拟的森林环境中。

主要功能

局部物体运动控制：用户可以通过简单的界面（如拖动、旋转和缩放多边形）来控制视频中特定物体的运动。
全局相机运动控制：通过提供全局光流场，用户可以控制相机的运动，例如平移、旋转等。
运动转移：将一个视频中的运动转移到另一个视频或场景中，支持从参考视频到目标上下文的运动转移。
实时噪声扭曲：通过高效的噪声扭曲算法，实时生成与运动一致的噪声，支持大规模视频扩散模型的训练。

主要特点

简单易用：该方法仅通过改变数据预处理方式，将随机噪声替换为与运动相关的扭曲噪声，无需对视频扩散模型进行任何架构或训练流程的修改。
高效实时：提出了一种新的噪声扭曲算法，能够在实时运行中快速生成扭曲噪声，比现有的方法（如 HIWYN）快26倍。
保持高斯分布：通过精心设计的噪声扭曲算法，确保扭曲后的噪声仍然保持空间上的高斯分布，从而在生成的视频中保持每帧的像素质量。
广泛的适用性：该方法可以应用于任何视频扩散模型，支持多种运动控制任务，包括局部物体运动控制、全局相机运动控制和运动转移。

工作原理

噪声扭曲算法：

输入：前一帧的噪声、前一帧的密度、前向和后向光流。
过程：通过构建一个二分图，将前一帧的噪声和密度映射到当前帧。算法分为扩展（expansion）和收缩（contraction）两种情况，分别处理噪声的扩展和收缩。
输出：当前帧的噪声和密度。
理论保证：通过数学证明，该算法能够保持噪声的高斯分布，同时在时间上引入运动相关性。

视频扩散模型的微调：