VideoMaMa：基于扩散模型的视频抠图新SOTA，粗糙掩码一键生成高精度Alpha遮罩

13 0

高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa（Video Mask-to-Matte Model），一种基于 Stable Video Diffusion 的视频抠图新方法，专门解决从粗糙二进制掩码 → 高精度、时序连贯、带半透明细节的 Alpha Matte 这一核心难题。

项目主页：https://cvlab-kaist.github.io/VideoMaMa
GitHub：https://github.com/cvlab-kaist/VideoMaMa
模型：https://huggingface.co/SammyLim/VideoMaMa
Demo：https://huggingface.co/spaces/SammyLim/VideoMaMa

它不仅在多项基准上刷新 SOTA，还构建了目前规模最大的真实视频抠图数据集 MA-V，为整个视频抠图领域从“合成数据”走向“真实场景”提供了关键支撑。

VideoMaMa：基于扩散模型的视频抠图新SOTA，粗糙掩码一键生成高精度Alpha遮罩

研究背景与核心痛点

视频抠图（Video Matting）是影视后期、直播、虚拟背景、内容创作的基础技术，目标是提取带透明度的前景物体，保留发丝、绒毛、运动模糊、半透明边缘等精细结构。

传统方法面临三大瓶颈：

高质量 Alpha 数据极度稀缺：必须绿幕/专业设备拍摄，成本高、规模小。
合成→真实域差距巨大：多数模型在合成数据训练，真实场景光照、模糊、时序一致性都不自然。
粗糙掩码无法直接用：SAM2 等分割模型只能输出硬边界掩码，缺少透明度与细节。

VideoMaMa 的核心定位：

输入：任意粗糙掩码（下采样、多边形、SAM2 输出等）
输出：时序一致、像素精确、含半透明细节的视频 Alpha 遮罩

核心思路：用扩散先验“补全”真实细节

VideoMaMa 不依赖复杂迭代去噪，而是直接复用预训练视频扩散模型（SVD）的强大生成先验，让模型“脑补”出真实世界的半透明区域、毛发细节、运动模糊。

典型例子：

输入：SAM2 给出的蒲公英粗糙掩码
输出：VideoMaMa 恢复每根绒毛的透明度与时序连贯性

它能处理：头发、胡须、羽毛、纱质、透明物体、高速运动模糊等传统方法极易失败的场景。

模型架构与关键技术

1. 基于 Stable Video Diffusion 的单步推理架构

直接在 SVD 隐空间做 mask → matte 转换
单步预测，无需多步去噪，速度远优于常规扩散抠图
输入：RGB 帧 + 二进制掩码 + 噪声
输出：高精度 Alpha 隐空间表示 → 解码为最终遮罩

2. 两阶段训练（兼顾高分辨率细节 + 时序一致性）

阶段1（空间层）：冻结时序模块，在 1024×1024 单帧训练，学习像素级精细边缘。
阶段2（时序层）：冻结空间模块，在低分辨率 3 帧视频训练，保证运动连贯、不闪烁。

3. 掩码增强（Mask Augmentation）

强制模型不能只抄输入掩码，必须从图像推理真实结构：

多边形退化：用粗糙多边形逼近边界
下采样退化：大幅降采样再上采样，抹除高频信息
让模型在极粗糙输入下仍能恢复精细 Matte

4. 语义知识注入（DINOv3）

提取 DINOv3 语义特征注入 SVD 解码器
提升复杂结构、重叠物体、关节类目标的边界一致性

5. MA-V：首个大规模真实视频抠图数据集

50,541 个真实视频（现有真实数据集的近 50 倍）
自然前景+背景，非合成粘贴
可显著提升真实场景泛化能力

主要功能与模式

Mask-to-Matte 核心转换
粗糙掩码 → 精细 Alpha 遮罩
零样本真实视频泛化
仅合成数据训练，真实场景依然超强
两大工作模式
- 全帧掩码引导（all-frame mask-guided）
- 首帧掩码引导（first-frame mask-guided）+ 时序传播
大规模伪标签生成引擎
为无标注视频自动生成高质量抠图数据