新型视频生成模型家族MarDini：通过将掩码自回归（MAR）技术与扩散模型（DM）相结合，开创了一种高效的视频生成方法

395 0

Meta AI与阿卜杜拉国王科技大学的研究人员推出了一种新型视频生成模型家族——MarDini。这一模型家族通过将掩码自回归（MAR）技术与扩散模型（DM）相结合，开创了一种高效的视频生成方法。MarDini的设计旨在优化计算资源的使用，同时保持高质量的视频生成效果。例如，MarDini能够根据给定的文本描述生成视频，如生成一个视频展示“窗户中心流淌的雨滴”或“海浪冲击”的场景。它还能够处理更复杂的动态过程，如“玻璃破碎”或“水中形成漩涡”。

项目主页：https://mardini-vidgen.github.io

主要功能：

视频插值（Video Interpolation）：在两个给定帧之间生成中间帧，创建平滑的视频过渡。
图像到视频生成（Image-to-Video Generation）：从单张图片生成视频，扩展到视频的动态表现。
视频扩展（Video Expansion）：基于一组帧预测视频序列，如根据一系列连续帧生成额外的帧。

主要特点：

灵活性：通过灵活的掩码策略，MarDini能够处理多种视频生成任务。
可扩展性：MarDini能够从零开始训练，无需依赖于图像生成的预训练。
效率：MarDini的不对称设计使其在推理时内存效率更高，能够快速生成高分辨率视频。

工作原理：

MarDini由两个主要网络组成：一个重参数的MAR规划模型和一个轻量级的DM生成模型。MAR规划模型处理低分辨率的输入帧并生成规划信号，这些信号包含语义和长期时间信息，引导DM的高分辨率生成过程。DM接收噪声帧，并逐步去除噪声以重建帧。

MarDini的核心创新在于其不对称的网络设计，分为两个主要部分：

基于MAR的规划模型：
- 功能：处理时间规划，使用低分辨率输入为每个掩码帧生成规划信号。
- 特点：包含大部分模型参数，负责理解视频的时间结构和动态变化。
轻量级生成模型：
- 功能：使用规划模型生成的信号，通过扩散去噪生成高分辨率帧。
- 特点：计算资源消耗较少，专注于空间细节的生成。