视频修复模型SeedVR:处理任意长度和分辨率的真实世界视频修复任务

南洋理工大学和字节跳动的研究团队提出了 SeedVR,旨在解决通用视频恢复(video restoration,VR)中面临的挑战,即如何在处理未知退化的真实世界视频时,有效地恢复高质量视频并保持时间一致性和细节保真度,同时克服现有扩散模型在视频恢复方面的效率和效果局限。SeedVR是一个新颖的扩散变换器模型,旨在处理任意长度和分辨率的真实世界视频修复任务。

例如,我们有一段来自监控摄像头的低分辨率视频,视频内容是夜晚的街道,由于光线不足和摄像头质量限制,视频画面模糊且有很多噪点。使用SeedVR模型,我们可以将这段低质量视频转换成高分辨率、细节丰富的高质量视频,比如提升分辨率、增强清晰度、去除噪点等,使得视频中的街道、行人和车辆等细节更加清晰可见。

主要功能

  1. 高质量视频恢复:能够处理任意长度和分辨率的低质量视频,将其恢复为高质量视频,有效去除视频中的退化因素,如模糊、噪声等,并生成逼真的细节。例如,对于因拍摄设备或传输过程导致画质下降的视频,SeedVR 可以显著提升其清晰度和视觉质量,使画面更加清晰、锐利,纹理更加细腻。
  2. 多类型数据处理:在合成、真实世界和人工智能生成(AIGC)视频数据集上均表现出色,能适应不同来源和特性的视频数据,在多个基准测试中取得了领先的性能。如在处理 AIGC 视频时,能够忠实还原如熊猫鼻子、兵马俑面部等精细细节,而其他方法可能会产生模糊效果。

主要特点

  1. 创新的窗口注意力机制:基于移位窗口注意力的扩散变压器块设计,采用了 64×64 的大窗口注意力(在 8× 压缩潜空间中),相较于传统的小窗口注意力,能更好地与文本提示交互并捕捉长距离依赖关系,有效解决了扩散模型中处理任意分辨率输入的问题,避免了对重叠补丁采样策略的依赖,提高了处理效率。
  2. 高效的因果视频自编码器:开发的因果视频变分自编码器(CVVAE)对时空进行有效压缩(时间压缩 4 倍,空间压缩 8 倍),在降低计算成本的同时保持高重建质量,显著提升了训练和推理效率,且其重建能力优于现有视频生成和恢复的自编码器模型。
  3. 大规模训练策略:通过大规模混合图像和视频数据训练、预计算潜在特征和文本嵌入以及渐进式增加分辨率和时长的训练策略,提高了模型的泛化能力和训练效率,使其能够在复杂的真实世界视频恢复任务中表现出色。

工作原理

基于移位窗口的 MM - DIT 模块

  • 采用 MM - DIT 作为基础模块,但引入移位窗口注意力机制改进其全注意力特性,以适应任意长度和分辨率的视频输入。对于输入视频特征和文本嵌入,先将视频特征扁平化,然后分别提取视频和文本的查询(query)、键(key)、值(value)。计算注意力时,采用两种窗口注意力:从左上角开始的常规窗口注意力和偏移半个窗口大小的移位窗口注意力。在窗口内计算注意力时,使用 3D 相对旋转位置嵌入(RoPE)来避免位置偏差。视频和文本特征的键值进行拼接,分别与各自的查询计算注意力,这种方式不增加计算成本且性能损失小。

因果视频自编码器(CVVAE)

  • 为提高视频处理效率和重建质量,重新设计了视频自编码器。使用因果 3D 残差块来捕获时空表示,增加潜在通道数至 16 以提升模型容量,应用时间压缩因子 4 使编码更高效。通过在大规模数据集上使用 L1 损失、LPIPS 损失和 GAN 损失进行训练,该自编码器能有效处理长视频,将其切成片段进行处理。

大规模训练策略

  • 混合数据训练:收集约 1 亿张图像和约 500 万视频组成大规模混合数据集,图像分辨率多样且多高于 1024×1024 像素,视频为从高分辨率视频随机裁剪的 720p 片段。通过多种评估指标筛选高质量样本,同时在图像和视频数据上训练模型,以提高其泛化能力。
  • 预计算潜在特征和文本嵌入:由于高分辨率数据编码缓慢影响训练效率,预先计算高质量和低质量视频的潜在特征以及文本嵌入,使训练速度提升 4 倍。同时确保了低质量条件下的随机退化应用,且节省 GPU 内存,允许更大批量训练。
  • 渐进式训练:模型基于 SD3 - Medium 初始化,从短、低分辨率视频(如 5 帧 256×256)开始训练,逐步增加视频长度和分辨率(如 9 帧 512×512,最终 21 帧 768×768),这种策略使模型能快速收敛,适应不同尺度的视频恢复任务。此外,通过向潜在低质量条件注入随机噪声,缩小合成低质量视频与真实世界视频的退化差距,避免因降低合成训练数据的退化程度而削弱模型生成能力。同时,随机用空提示替换文本输入,增强模型对不同文本条件的适应性,但避免过度增强生成能力导致输出保真度降低。

    具体应用场景

    1. 视频增强与修复:适用于修复老电影、模糊监控视频等各类画质受损的视频。对于老电影中因胶片老化、保存不当等造成的划痕、褪色、模糊等问题,SeedVR 可以恢复其画面清晰度、色彩饱和度,还原细节,提升观看体验;对于监控视频,能够增强画面质量,使关键信息(如人物面部特征、物体形状等)更清晰可辨,有助于安防监控、证据分析等领域。
    2. 视频内容生成与优化(AIGC 领域):在人工智能生成视频方面,可对生成的视频进行后处理优化,提升视频的质量和真实感,使其更接近专业拍摄水平。例如,在虚拟场景生成的视频中,优化纹理细节、光影效果等,使虚拟场景更加逼真;在动画视频生成中,增强线条清晰度、色彩鲜艳度等,提升动画质量。
    3. 视频流媒体与在线视频平台:在线视频平台可利用 SeedVR 提升视频播放质量,减少因网络传输、压缩等导致的画质下降问题,为用户提供更清晰流畅的观看体验。对于流媒体直播,可实时处理视频流,增强主播画面质量,吸引更多观众;对于视频点播服务,提高视频库中视频的整体质量,增强平台竞争力。
    4. 虚拟现实(VR)与增强现实(AR)体验提升:在 VR 和 AR 应用中,SeedVR 可优化虚拟环境中的视频内容显示效果,使虚拟元素与现实场景融合更加自然、逼真。例如,在 VR 游戏中,提升游戏场景的画质和细节,增强沉浸感;在 AR 导航应用中,改善导航指示视频的清晰度和可视性,提高导航准确性和用户体验。
    0

    评论0

    没有账号?注册  忘记密码?