FlashVSR:首个实时扩散视频超分框架,17 FPS 处理 1408p 视频

视频模型1个月前发布 小马良
17 0

视频超分辨率(Video Super-Resolution, VSR)的目标是将低分辨率视频高质量地重建为高分辨率版本。近年来,扩散模型在图像和视频恢复任务中展现出强大能力,但其高延迟、高计算开销和对超高分辨率泛化能力弱的问题,限制了在实时场景中的应用。

为解决这些问题,清华大学、上海人工智能实验室、香港中文大学与上海交通大学联合提出 FlashVSR ——首个面向实时视频超分的流式单步扩散框架。它在单张 A100 GPU 上处理 768×1408 分辨率视频时可达到约 17 FPS,相比此前最快的单步扩散 VSR 模型提速近 12 倍,同时保持领先的感知质量。

FlashVSR:首个实时扩散视频超分框架,17 FPS 处理 1408p 视频

三大关键技术支撑高效推理

FlashVSR 的高效性源于三项互补设计:

  1. 训练友好的三阶段蒸馏流程
    从全注意力教师模型出发,逐步蒸馏为适用于流式推理的稀疏因果单步学生模型。该流程支持端到端训练,并有效弥合多步到单步、静态到流式的建模差距。
  2. 本地约束稀疏注意力机制
    传统扩散模型在超高分辨率推理时,常因位置编码超出训练范围而出现纹理重复或模糊。FlashVSR 限制每个查询仅在局部空间窗口内进行注意力计算,既避免了位置混叠问题,又大幅减少冗余运算。在此基础上,进一步引入 top-k 稀疏策略,将计算聚焦于最相关区域。
  3. 轻量级条件解码器(TC Decoder)
    与标准 VAE 解码器不同,TC Decoder 同时接收潜在表示和对应的低分辨率帧作为输入。利用 LR 信号作为先验,显著简化高分辨率重建过程,在保持视觉质量几乎无损的前提下,实现 7 倍解码加速
FlashVSR:首个实时扩散视频超分框架,17 FPS 处理 1408p 视频

专为超分训练构建的新数据集:VSR-120K

为支持大规模训练,团队还构建了 VSR-120K 数据集,包含:

  • 约 120,000 个高动态视频片段(平均长度 >350 帧)
  • 180,000 张高分辨率图像
    所有样本均来自开放平台,经 LAION-Aesthetic 与 MUSIQ 质量评分筛选,并使用 RAFT 过滤掉运动不足的片段。最终保留的均为分辨率 ≥1080p、具有丰富时序变化的高质量内容,适用于联合图像与视频超分训练。

实测性能:快而准,可扩展至 1440p

在多个基准测试中,FlashVSR 表现出显著优势:

  • 速度:768×1408 分辨率下达 17 FPS,比 SeedVR2-3B 快 12 倍,比多步模型 Upscale-A-Video 快 136 倍;
  • 质量:在 PSNR、SSIM 和 LPIPS 等指标上均优于现有方法,尤其在视觉感知质量上提升明显;
  • 可扩展性:框架可稳定扩展至 1440p 分辨率,输出细节丰富、无伪影。
© 版权声明

相关文章

暂无评论

none
暂无评论...