VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

视频模型14小时前发布 小马良
6 0

高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa(Video Mask-to-Matte Model),一种基于 Stable Video Diffusion 的视频抠图新方法,专门解决从粗糙二进制掩码 → 高精度、时序连贯、带半透明细节的 Alpha Matte 这一核心难题。

它不仅在多项基准上刷新 SOTA,还构建了目前规模最大的真实视频抠图数据集 MA-V,为整个视频抠图领域从“合成数据”走向“真实场景”提供了关键支撑。

VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

研究背景与核心痛点

视频抠图(Video Matting)是影视后期、直播、虚拟背景、内容创作的基础技术,目标是提取带透明度的前景物体,保留发丝、绒毛、运动模糊、半透明边缘等精细结构。

传统方法面临三大瓶颈:

  1. 高质量 Alpha 数据极度稀缺:必须绿幕/专业设备拍摄,成本高、规模小。
  2. 合成→真实域差距巨大:多数模型在合成数据训练,真实场景光照、模糊、时序一致性都不自然。
  3. 粗糙掩码无法直接用:SAM2 等分割模型只能输出硬边界掩码,缺少透明度与细节。

VideoMaMa 的核心定位:

  • 输入:任意粗糙掩码(下采样、多边形、SAM2 输出等)
  • 输出:时序一致、像素精确、含半透明细节的视频 Alpha 遮罩
VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

核心思路:用扩散先验“补全”真实细节

VideoMaMa 不依赖复杂迭代去噪,而是直接复用预训练视频扩散模型(SVD)的强大生成先验,让模型“脑补”出真实世界的半透明区域、毛发细节、运动模糊。

典型例子:

  • 输入:SAM2 给出的蒲公英粗糙掩码
  • 输出:VideoMaMa 恢复每根绒毛的透明度与时序连贯性

它能处理:头发、胡须、羽毛、纱质、透明物体、高速运动模糊等传统方法极易失败的场景。

VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

模型架构与关键技术

1. 基于 Stable Video Diffusion 的单步推理架构

  • 直接在 SVD 隐空间做 mask → matte 转换
  • 单步预测,无需多步去噪,速度远优于常规扩散抠图
  • 输入:RGB 帧 + 二进制掩码 + 噪声
  • 输出:高精度 Alpha 隐空间表示 → 解码为最终遮罩

2. 两阶段训练(兼顾高分辨率细节 + 时序一致性)

  • 阶段1(空间层):冻结时序模块,在 1024×1024 单帧训练,学习像素级精细边缘。
  • 阶段2(时序层):冻结空间模块,在低分辨率 3 帧视频训练,保证运动连贯、不闪烁。

3. 掩码增强(Mask Augmentation)

强制模型不能只抄输入掩码,必须从图像推理真实结构:

  • 多边形退化:用粗糙多边形逼近边界
  • 下采样退化:大幅降采样再上采样,抹除高频信息
  • 让模型在极粗糙输入下仍能恢复精细 Matte

4. 语义知识注入(DINOv3)

  • 提取 DINOv3 语义特征注入 SVD 解码器
  • 提升复杂结构、重叠物体、关节类目标的边界一致性

5. MA-V:首个大规模真实视频抠图数据集

  • 50,541 个真实视频(现有真实数据集的近 50 倍)
  • 自然前景+背景,非合成粘贴
  • 可显著提升真实场景泛化能力

主要功能与模式

  1. Mask-to-Matte 核心转换
    粗糙掩码 → 精细 Alpha 遮罩
  2. 零样本真实视频泛化
    仅合成数据训练,真实场景依然超强
  3. 两大工作模式
    • 全帧掩码引导(all-frame mask-guided)
    • 首帧掩码引导(first-frame mask-guided)+ 时序传播
  4. 大规模伪标签生成引擎
    为无标注视频自动生成高质量抠图数据

实验结果:全面超越现有 SOTA

1. 全帧掩码引导(V-HIM60 / YouTubeMatte 1080P)

无论输入掩码质量如何(8×下采样、32×下采样、多边形、SAM2),VideoMaMa 在 MAD、Grad 等关键指标均大幅领先 MGM、MaGGIe 等方法。

尤其在极粗糙掩码下,优势更加明显。

2. 首帧掩码引导(仅第一帧标注)

SAM2-Matte(VideoMaMa + MA-V 微调) 显著超越 SAM2 原生、MatAnyone,实现长时间跟踪不漂移、细节稳定。

3. 消融关键结论

  • 两阶段训练 + DINOv3 = 最优性能
  • 仅用 MA-V 训练即可超越传统 SOTA
  • 纯合成数据集反而带来域偏移,真实场景性能下降

4. 定性效果

  • 毛发、绒毛、透明织物、运动模糊全面领先
  • 时序更稳定、无闪烁、边缘更自然
© 版权声明

相关文章

暂无评论

none
暂无评论...