新型图像到视频扩散模型TRIP：专注于将静态图像转换为动态视频

403 0

来自中国科学技术大学和HiDream.ai的研究人员推出新型图像到视频扩散模型TRIP（Temporal Residual Learning with Image noise Prior），它专注于将静态图像转换为动态视频（即图像到视频生成，I2V）。TRIP模型的核心在于利用图像噪声先验来增强帧之间的时间一致性，同时保持与给定静态图像的忠实对齐。

项目主页

论文

例如，如果有一个静态图像提示为“一只熊猫正在清理自己的毛发”，TRIP模型可以根据这个静态图像和文本提示生成一个动态视频，其中熊猫不仅与原始图像保持视觉上的一致性，而且视频中的动作（如熊猫的毛发清理动作）在时间上也是连贯的。这展示了TRIP在保持图像一致性和生成时间连贯视频方面的能力。

主要功能和特点：

时间一致性： TRIP通过学习图像噪声先验来增强视频中相邻帧之间的时间一致性。

图像噪声先验： 利用给定静态图像和噪声视频潜在代码，通过一步反向扩散过程获得图像噪声先验。

残差学习： 采用类似残差的学习方式，通过3D-UNet对噪声视频和静态图像潜在代码进行处理，以便于学习每一帧的残差噪声。

工作原理：

TRIP模型首先通过预训练的2D VAE将输入的视频剪辑编码成一系列帧的潜在代码。然后，将第一帧的图像潜在代码与噪声视频潜在代码在时间维度上进行拼接，作为3D-UNet的输入。接下来，TRIP通过两个路径进行噪声预测：一个是直接使用图像噪声先验作为参考噪声的快捷路径；另一个是通过3D-UNet估计残差噪声的残差路径。最后，使用基于Transformer的时间噪声融合模块动态地合并每一帧的参考噪声和残差噪声，生成与给定图像对齐的高质量视频。

具体应用场景：