阿里推出新型视频生成框架I4VGen：无需训练且即插即用的视频扩散推理框架

602 0

阿里推出新型视频生成框架 I4VGen，这是一个无需训练（training-free）且即插即用（plug-and-play）的视频扩散推理框架，它通过强化图像技术来提升文本到视频（text-to-video）生成的质量。I4VGen在多个维度上相比于现有方法的优势，包括视频质量和文本一致性，并在用户研究中显示出其优越性。此外，I4VGen还能够与现有的图像到视频的扩散模型集成，进一步提高视频生成的质量和时间一致性。

项目主页：https://xiefan-guo.github.io/i4vgen

例如，你想要生成一个描述“一只狗在海里游泳”的视频。使用I4VGen，你只需提供一个文本提示，系统会首先生成一个或多个与文本描述相符的图像作为锚点。然后，这些图像会通过I4VGen的框架转化为动态视频，生成一个视觉上逼真且语义上与文本描述一致的视频结果。

主要功能与特点：

无需额外训练：I4VGen不需要对现有模型进行额外训练或引入可学习的参数，可以直接应用于现有的视频扩散模型。
两阶段生成过程：I4VGen将文本到视频的生成分解为两个阶段：锚点图像合成和锚点图像引导的视频合成。
生成-选择策略：采用一个设计良好的生成-选择管道来生成视觉上逼真、语义上忠实的锚点图像。
噪声不变视频得分蒸馏采样（NI-VSDS）：一种创新的方法，用于将图像动画化为动态视频，并随后通过视频再生过程来优化视频。

工作原理：

锚点图像合成：首先，I4VGen使用预训练的图像扩散模型生成一组候选图像，并通过奖励机制选择最符合文本提示的图像作为锚点图像。
锚点图像引导的视频合成：获得锚点图像后，I4VGen通过复制该图像多次来创建初始静态视频，然后应用NI-VSDS方法将静态视频转化为动态视频，并最终通过视频再生过程来提升视频质量。