近年来,视频扩散模型在生成高质量视频方面取得了显著进展,但其计算成本高、推理速度慢的问题始终是落地的一大障碍。
为了解决这一难题,来自北京大学和华为的研究人员在最新论文中提出了 MagCache —— 一种基于“幅度感知”的新型缓存机制,用于加速视频扩散模型的生成过程。
实验证明,MagCache 在不牺牲视觉质量的前提下,可实现高达 2.8 倍以上的推理加速,成为当前最高效的视频扩散模型加速方案之一。

为什么需要加速视频扩散模型?
目前主流的视频扩散模型通常需要执行大量时间步去噪操作,才能逐步从噪声中还原出高质量的视频帧。这种逐帧迭代的方式虽然效果出色,但计算开销巨大。
例如,在一些复杂场景(如街道、人物动态)下,传统扩散模型可能需要数十秒甚至几分钟来生成几秒钟的视频。
为了提升效率,已有多种“跳步”策略被提出,主要包括:
- 统一启发式方法:简单粗暴地固定跳过若干时间步。
- 提示特定校准方法(如 TeaCache):通过拟合残差变化曲线,动态调整跳步策略。
然而,这些方法要么精度不足,要么需要大量样本进行训练和校准,限制了实际应用中的灵活性和泛化能力。
MagCache 的核心洞察:幅度衰减规律
研究人员发现了一个关键现象:在视频扩散模型的去噪过程中,相邻时间步的残差输出之间存在一个稳定且通用的幅度比率变化规律。
具体来说:
- 在早期阶段,残差幅度比值单调递减;
- 到后期阶段,下降速度进一步加快;
- 同时,标准差和逐标记余弦距离也保持较低水平。
这表明:残差变化的强度可以用幅度作为指标来估计误差,从而判断哪些时间步可以安全跳过。
这一发现具有高度泛化性,适用于不同模型和任务设置,为设计更通用的跳步策略提供了理论基础。
MagCache 的工作原理
MagCache 的设计基于以下三个关键步骤:
- 单样本校准
只需使用一个随机提示生成的样本,即可提取出该模型的时间步幅度曲线,作为后续跳步决策的依据。 - 误差建模
根据幅度比率变化趋势,建立误差估计模型,预测跳过某个时间步可能带来的影响。 - 自适应跳步策略
动态决定是否跳过当前时间步:- 如果累积误差未超过设定阈值;
- 且连续跳过的步数未达上限;
则跳过该步,否则重新计算并更新缓存。
这种方式既减少了计算量,又保证了生成质量的一致性和稳定性。
性能表现:加速 + 高保真双赢
在多个主流视频扩散模型上的测试结果表明,MagCache 表现出色:
| 模型 | 加速倍数 | 视觉质量(LPIPS/SSIM/PSNR) |
|---|---|---|
| Wan 2.1 | 2.68x | 显著优于现有方法 |
| HunyuanVideo | 2.82x | 视觉保真度更高 |
此外,MagCache 还在 Open-Sora 上实现了 2.1 倍 的加速,展现出良好的适配性。
值得注意的是,MagCache 仅需一个样本完成校准,相比现有方法动辄几十个样本的需求,大大降低了部署门槛。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















