近年来,视频生成模型在质量上取得了显著进步。然而,一个根本性挑战始终存在:
时序维度的引入,使计算成本呈指数级增长。
标准扩散模型中的稠密注意力机制(Dense Attention)在处理长视频时面临 $O(n^2)$ 的计算复杂度——这意味着,视频帧数翻倍,注意力计算量可能变为四倍。这不仅让推理变得缓慢,更使得训练和扩展长视频任务成本极高。
为解决这一问题,来自麻省理工学院、英伟达、普林斯顿、伯克利、斯坦福以及 First Intelligence 的研究人员联合提出 Radial Attention —— 一种受物理现象启发的新型稀疏注意力机制。
- 项目主页:https://hanlab.mit.edu/projects/radial-attention
- GitHub:https://github.com/mit-han-lab/radial-attention
它首次将视频扩散模型中的注意力行为与自然界中的“能量衰减”联系起来,并据此设计出计算效率更高的注意力结构,在保持生成质量的同时,显著降低计算开销。

发现:时空能量衰减现象
研究人员在分析多个视频扩散模型(如 HunyuanVideo、Wan2.1)的注意力图时,观察到一个普遍规律:
随着两个 token 在空间或时间上的距离增加,其注意力分数呈系统性下降趋势。
这种现象被称为 “时空能量衰减”(Spatiotemporal Energy Decay),类似于物理世界中声波或光信号随距离衰减的规律。
这一发现意味着:远离当前帧的 token,对当前生成的影响本就较小。因此,没有必要对所有 token 对都进行完整注意力计算。
核心方案:Radial Attention
基于这一洞察,团队提出 Radial Attention,一种结构化稀疏注意力机制,将计算复杂度从 $O(n^2)$ 降至 $O(n \log n)$,实现高效且可扩展的长视频建模。
1. 核心思想
- 空间局部性:每个 token 只关注其空间邻近区域
- 时间衰减性:随着时间距离增加,注意力窗口逐渐缩小
- 静态掩码设计:使用预定义的稀疏模式,无需动态计算,提升效率
这种设计不依赖复杂的近似或学习型稀疏策略,而是通过物理启发的固定掩码,模拟自然衰减过程。
2. 模式结构
注意力图被划分为多个“带”(bands),按时间距离分层:
- 中心带(相邻帧):全注意力计算
- 外层带:计算密度逐层减半,对角线宽度翻倍
- 当计算密度低于阈值时,减少对角线采样频率
- 引入“注意力沉”(attention sink)以保留全局上下文
该模式在保证关键时空交互的同时,大幅削减冗余计算。
三大优势:快、省、可扩展
Radial Attention 不只是一个理论优化,更在实际任务中展现出显著优势。
| 指标 | 提升效果 |
|---|---|
| 推理速度 | 最高提升 3.7 倍(500帧720p视频) |
| 微调成本 | 降低高达 4.4 倍 |
| 支持长度 | 可生成 4倍长度 的视频 |
| 计算量 | 注意力部分减少 9倍 |
更重要的是,这些提升是在几乎不损失视觉质量的前提下实现的。
实际性能表现
1. 默认长度:加速不降质
在 HunyuanVideo(117帧)和 Wan2.1-14B(69帧)的默认设置下:
- 实现 1.8–1.9 倍推理加速
- 视觉质量与原始稠密注意力模型相当
- 可直接部署,无需重新训练

2. 长视频生成:低成本扩展
通过 LoRA 微调,预训练模型即可支持 4 倍长度视频生成:
- 训练成本仅为全参数微调的 1/4.4
- 推理速度仍比原始稠密模型快 3.7 倍
- 视觉奖励评分(Visual Reward Score)甚至优于基线

3. 完全兼容现有生态
- 支持 Wan2.1-14B、HunyuanVideo、Mochi-1 等主流视频模型
- 兼容现有 风格 LoRA,可无缝迁移
- 已支持 SageAttention v1/v2,适配更广

📌 2025年6月24日,Radial Attention 正式开源,标志着高效长视频生成进入实用阶段。
技术亮点总结
| 特性 | 说明 |
|---|---|
| 物理启发设计 | 模拟信号衰减,自然引导稀疏性 |
| 静态掩码 | 无需动态计算,推理更稳定高效 |
| O(n log n) 复杂度 | 显著优于 O(n²) 稠密注意力 |
| LoRA 可扩展 | 轻量微调即可支持更长视频 |
| 高质量保持 | 视觉表现与原始模型相当甚至更优 |
为什么重要?
当前视频生成模型正面临“质量”与“效率”的权衡。Radial Attention 的意义在于:
它没有牺牲表达能力,而是通过更合理的结构设计,释放了已有模型的潜力。
它证明了:不是所有注意力都值得计算。通过识别并利用模型内部的自然规律(如能量衰减),我们可以构建更高效、更可持续的生成系统。
对于需要生成长视频的应用场景——如影视预览、动画制作、虚拟现实内容生成——Radial Attention 提供了一条低成本、高质量、易部署的技术路径。















