线性注意力 + 恒定内存 KV 缓存！SANA-Video：高效生成分钟级高清视频的新一代文生视频模型

644 0

在文本到视频（T2V）生成领域，高分辨率、长时长与低延迟三者往往难以兼得。现有大模型虽能生成高质量视频，但动辄数千秒的推理时间与高昂的训练成本严重限制了其落地应用。

为此，由英伟达、香港大学、麻省理工学院、清华大学、北京大学和阿卜杜拉国王科技大学联合研究团队推出 SANA-Video ——一款专注于高效、低成本、长时序视频生成的小型扩散模型。

该模型能够在单张消费级 GPU 上快速生成分辨率达 720×1280、时长接近一分钟的连贯视频，在保持高质量的同时，将推理速度提升数十倍，训练成本降至主流方案的 1%。

更重要的是，SANA-Video 并非依赖参数堆叠，而是通过两项核心架构创新，从根本上重构了视频扩散的效率边界。

当前主流视频扩散模型多基于 DiT（Diffusion Transformer）架构，使用标准自注意力机制处理时空序列。然而，当视频长度增加时，其计算复杂度呈平方级增长：

自注意力复杂度：O(N²)，其中 N 是视觉 token 总数

以一段 5 秒、720p、16fps 的视频为例：

此外，传统 KV 缓存机制在自回归生成中内存随帧数线性增长，无法支持分钟级连续输出。

SANA-Video 正是为解决这些问题而生。

SANA-Video 提出 Linear DiT 架构，将传统的 softmax 自注意力替换为线性注意力（Linear Attention），使计算复杂度从 O(N²) 降至 O(N)。

其关键在于：

在此基础上，模型引入：

这使得模型能在极低资源下处理超长序列。

为了实现真正意义上的长视频自回归生成，SANA-Video 设计了 Chunk-wise Linear Attention 模块，并构建了一种固定内存的 KV 缓存机制。

工作原理如下：

✅ 内存占用恒定，不随视频长度增加
✅ 支持无限时长流式生成（理论上）

这一设计打破了传统 Transformer 在长序列生成中的内存瓶颈，为分钟级乃至更长视频生成提供了可行性基础。

模型	分辨率	时长	推理时间	加速比
Wan2.1-14B	720p	5s	1897 秒 (~31.6 min)	1×
SANA-Video	720p	5s	36 秒	53×

在 RTX 5090 上结合 NVFP4 精度后，生成 5 秒 720p 视频进一步缩短至 29 秒（2.4 倍加速），接近实时交互门槛。

同时支持多种任务：

尽管参数规模较小，SANA-Video 在权威评测基准 VBench 上表现优异：

任务	SANA-Video 得分	对比模型
T2V 综合得分	83.71	≈ Open-Sora-2.0 (14B)，> Wan2.1-1.3B
I2V 综合得分	88.02	> Wan2.1-14B, > HunyuanVideo-I2V (11B)

尤其在运动平滑性、主体一致性、美学质量等维度领先明显，表明其不仅“快”，而且“好”。

除了核心设计优化，SANA-Video在训练环节也实现了成本突破。研究团队通过探索有效的数据过滤策略与模型训练方法，将训练成本压缩至64个H100 GPU上运行12天——这一成本仅为同类模型MovieGen的1%，大幅降低了高性能视频生成模型的研发门槛。

这一成本水平使得中小型机构也能复现和微调先进视频模型，推动技术民主化。

低成本并未牺牲性能，SANA-Video在多项关键指标上表现突出，同时兼顾实际部署需求。

性能对标先进模型：与现代小型扩散模型（如Wan 2.1-1.3B、SkyReel-V2-1.3B）相比，SANA-Video性能持平，但测得延迟降低16倍，生成效率显著提升。
部署效率优化：在RTX 5090 GPU上以NVFP4精度部署时，生成5秒720p视频的推理速度从71秒加速至29秒，实现2.4倍提速；若对比更早期模型（如Wan2.1-14B），生成5秒720p视频的速度更是快了53倍（36秒 vs 1897秒）。
多任务支持：除了文本到视频（T2V），还能实现图像到视频（I2V）任务，在VBench评估中，T2V总分达83.71（与大型模型Open-Sora-2.0相当），I2V总分88.02（优于Wan2.1-14B、HunyuanVideo-I2V等模型）。