SeaCache：利用“光谱演化”原理重构扩散模型缓存，实现推理速度与画质的双重突破

28 0

扩散模型（Diffusion Models）无疑是当前视觉生成的基石，但其固有的顺序去噪过程导致推理速度缓慢，成为大规模应用的瓶颈。现有的加速方法多采用“缓存策略”，即重用相邻时间步的中间输出。然而，这些方法往往基于原始特征差异做决策，忽略了扩散过程中一个关键物理现象：光谱演化（Spectral Evolution）。

项目主页：https://jiwoogit.github.io/SeaCache
GitHub：https://github.com/jiwoogit/SeaCache

近日，成均馆大学和 NAVER Cloud 的研究团队推出了 SeaCache (Spectral Evolution Aware Cache)。这是一种无需训练的缓存调度方案，通过引入光谱对齐的表示，成功实现了最先进的延迟 - 质量权衡。

SeaCache：利用“光谱演化”原理重构扩散模型缓存，实现推理速度与画质的双重突破

核心洞察：被忽视的“光谱演化”

在扩散模型的去噪过程中，图像并非均匀生成，而是遵循特定的频谱规律：

早期阶段：主要生成低频结构（如物体轮廓、整体布局）。
后期阶段：逐步细化高频细节（如纹理、边缘、噪点）。

现有的缓存策略直接使用原始特征距离（Raw Feature Distance）来判断是否重用计算结果。然而，原始特征中混合了内容信号与随机噪声。这种“一视同仁”的处理方式导致模型可能在关键的结构生成期错误地跳过计算，或在噪声细化期浪费算力。

SeaCache 的创新在于：它不再平等对待所有频谱分量，而是设计了一种光谱演化感知滤波器（SEA Filter），专门用于抑制噪声分量，保留并加权内容相关的信号分量。

技术原理：从“神谕实验”到动态调度

1. 动机验证：神谕实验 (Oracle Experiment)

研究团队首先进行了一项思想实验：如果我们在已知完美输出（神谕）的情况下，分别基于“原始特征距离”和“滤波后信号距离”做缓存决策，结果会如何？

结果：基于 SEA 滤波后的信号距离做出的决策，能更紧密地跟随完整计算轨迹，显著提升了重建图像的 PSNR（峰值信噪比）。
结论：证明忽略光谱演化会导致缓存决策失误，而关注信号对齐能更好地保留模型行为。

2. 核心组件：光谱演化感知滤波器 (SEA Filter)

SeaCache 推导出了一个最优的线性去噪器作为滤波器。

工作原理：该滤波器根据当前去噪时间步的动态特性，自适应地调整频域权重。
效果：在频域中压制高频噪声干扰，突出低频结构信号，使得特征距离度量真正反映“内容变化”而非“随机波动”。

3. 实施框架：输入端代理与动态缓存

由于直接计算输出特征的距离需要完整运行去噪器（这就失去了加速意义），SeaCache 巧妙地寻找了一个输入端代理：

流程：
1. 对输入特征进行 FFT (快速傅里叶变换)。
2. 乘以依赖于时间步的 SEA 滤波器。
3. 进行 iFFT (逆变换)，得到光谱演化感知特征。
4. 计算连续时间步滤波特征间的相对距离。
决策机制：当累积距离超过阈值时，刷新去噪器（执行计算）；否则，重用缓存输出。
即插即用：SeaCache 不修改底层扩散模型架构，仅替换距离度量逻辑，可无缝集成到现有工作流中。

实测表现：刷新 SOTA，兼顾速度与画质

研究团队在多种主流视觉生成模型上进行了广泛测试，包括文本到图像模型 FLUX 和文本到视频模型 Wan2.1 (1.3B)。

测试设置：
- 图像：DrawBench 200 个提示，1024x1024 分辨率。
- 视频：VBench 944 个提示，65 帧 480p 视频。
- 预算：分别在约 50% 和 30% 的计算预算下测试。
关键结果：
- 画质保持：在相同计算预算下，SeaCache 生成的图像/视频在 PSNR、LPIPS、SSIM 等指标上均优于现有基线（如 TeaCache 等）。
- 动态适应：SeaCache 的调度策略能自适应内容复杂度。对于简单场景自动跳过更多步骤，对于复杂细节则保留计算，实现了真正的智能加速。
- 一致性：可视化结果显示，SeaCache 有效避免了传统方法在早期结构生成阶段的模糊和后期纹理的伪影问题。