Sand AI推出新型视频生成模型MAGI-1：通过自回归预测视频块序列来生成视频

711 0

MAGI-1是由Sand AI研究团队开发的一种新型视频生成模型。该模型通过自回归预测视频块序列来生成视频，每个视频块由固定长度的连续帧组成。MAGI-1的核心目标是实现高保真、实时、因果一致的视频生成，同时支持大规模部署和高效推理。这一研究在视频生成领域具有重要意义，尤其是在需要高时空一致性和实时交互的应用场景中。

GitHub：https://github.com/SandAI-org/MAGI-1
模型：https://huggingface.co/sand-ai/MAGI-1

MAGI-1的核心在于其对视频片段（固定长度的连续帧段）的处理方式，通过训练对随时间单调增加的每片段噪声进行去噪，实现因果时间建模，并天然支持流式生成。这使得MAGI-1在基于文本指令的图像到视频（I2V）任务中表现出色，提供高时间一致性和可扩展性。

例如，你是一位视频内容创作者，需要为一个广告项目生成一段展示产品功能的视频。使用MAGI-1，你可以上传一张产品的静态图片，并输入一段描述产品功能的文本指令，如“展示产品在不同场景下的使用效果”。MAGI-1将根据这些输入生成一段连贯的视频，展示产品在各种场景中的使用情况，整个过程可以在短时间内完成，且生成的视频具有高质量和高时间一致性。

主要功能

视频生成：MAGI-1能够根据文本指令、静态图像或短视频片段生成高质量的视频内容。
实时流式生成：支持实时视频流式生成，适用于直播、互动媒体等需要低延迟的应用场景。
可控生成：通过块级提示（chunk-wise prompting），用户可以对生成的视频内容进行精细控制。
长视频生成：支持长达数分钟的视频生成，适用于需要长叙事结构的场景。

主要特点

高时间一致性和可扩展性：MAGI-1通过多项算法创新和专用基础设施堆栈，实现了高时间一致性和可扩展性。
可控生成：通过分片提示支持可控生成，实现平滑场景转换、长时域合成和精细的文本驱动控制。
自回归去噪：MAGI-1以逐片段而非整体方式生成视频，每个片段（24帧）被整体去噪，当当前片段达到一定去噪水平后，立即开始生成下一个片段。
流水线设计：这种流水线设计支持最多四个片段的并发处理，以实现高效的视频生成。
基于Transformer的变分自编码器（VAE）：采用基于Transformer架构的变分自编码器，具有8倍空间压缩和4倍时间压缩。
快速解码和高质量重建：MAGI-1拥有最快的平均解码时间和极具竞争力的重建质量。
扩散模型架构：基于扩散Transformer构建，融入了多项关键创新，包括块因果注意力、并行注意力块、QK归一化与分组查询注意力（GQA）、前馈网络中的三明治归一化、SwiGLU激活函数和软帽调制。
蒸馏算法：采用快捷蒸馏方法，训练单一基于速度的模型以支持可变的推理预算，实现了高效推理，同时保真度损失最小。

工作原理

MAGI-1的工作原理基于以下关键技术和架构设计：

变分自编码器（VAE）：用于将视频压缩到低维的潜在空间，在该空间中进行去噪操作，从而提高训练和推理的效率。
自回归去噪模型：通过逐块预测视频块的去噪轨迹，MAGI-1能够生成具有严格时间一致性的视频。每个块的生成都依赖于前面所有块的信息。
分布式注意力机制（MagiAttention）：针对超长序列和异构掩码训练进行了优化，支持高效的并行计算和内存管理。
多任务训练：通过调整训练数据中干净块的比例，MAGI-1能够统一处理文本到视频（T2V）、图像到视频（I2V）和视频续写等多种任务。

模型库

MAGI-1提供了预训练权重，包括24B和4.5B模型，以及相应的蒸馏和蒸馏+量化模型。这些模型的权重链接可以在表格中找到。

模型	地址	硬件要求
T5	T5	-
MAGI-1-VAE	MAGI-1-VAE	-
MAGI-1-24B	MAGI-1-24B	H100/H800 * 8
MAGI-1-24B-distill	MAGI-1-24B-distill	H100/H800 * 8
MAGI-1-24B-distill+fp8_quant	MAGI-1-24B-distill+quant	H100/H800 * 4 or RTX 4090 * 8
MAGI-1-4.5B	MAGI-1-4.5B	RTX 4090 * 1