无需写代码！ComfyUI-VideoMaMa：可视化操作VideoMaMa视频抠图，支持SAM2遮罩生成

20 0

此前高丽大学、Adobe Research联合推出的VideoMaMa 视频抠图模型，凭借扩散模型的生成先验实现了从粗糙掩码到精细Alpha遮罩的高质量转换，成为视频抠图领域的新SOTA。

VideoMaMa：基于扩散模型的视频抠图新SOTA，粗糙掩码一键生成高精度Alpha遮罩

现在无需复杂的代码调试，只需通过ComfyUI-VideoMaMa自定义节点，就能在ComfyUI中可视化操作VideoMaMa的全部核心能力——加载视频、生成遮罩、运行抠图推理一键完成，还集成了SAM2实现交互式遮罩生成，零基础也能做出专业级视频抠图效果。

GitHub：https://github.com/okdalto/ComfyUI-VideoMaMa

核心价值：把SOTA视频抠图模型搬进ComfyUI

ComfyUI-VideoMaMa将VideoMaMa的推理逻辑封装为可视化节点，核心优势：

无需手写推理代码，纯拖拽式操作完成视频抠图；
自动下载基础模型（SVD）和VideoMaMa UNet权重，无需手动找资源；
集成SAM2交互式遮罩生成，鼠标点选即可得到目标物体掩码；
支持分辨率、运动强度、噪声增强等参数可视化调节，适配不同视频场景。

无需写代码！ComfyUI-VideoMaMa：可视化操作VideoMaMa视频抠图，支持SAM2遮罩生成

第一步：安装部署（3步搞定）

环境要求

Python 3.10+
PyTorch 2.0+（带CUDA）
显存充足的GPU（建议8G以上）
已安装ComfyUI

1. 克隆仓库并安装依赖

# 进入ComfyUI自定义节点目录
cd /path/to/ComfyUI/custom_nodes/
# 克隆仓库
git clone https://github.com/okdalto/ComfyUI-VideoMaMa
cd ComfyUI-VideoMaMa
# 安装依赖
pip install -r requirements.txt

2. 模型下载（自动/手动可选）

模型默认首次使用时自动下载，也可手动下载确保完整性：

① 基础SVD模型（必装）

huggingface-cli download stabilityai/stable-video-diffusion-img2vid-xt \
    --local-dir checkpoints/stabilityai/stable-video-diffusion-img2vid-xt

② VideoMaMa UNet检查点（必装）

huggingface-cli download SammyLim/VideoMaMa \
    --local-dir checkpoints/VideoMaMa

③ SAM2（可选，用于交互式遮罩生成）

# 安装SAM2
git clone https://github.com/facebookresearch/sam2
cd sam2 && pip install -e .

# 下载SAM2权重
mkdir -p ../checkpoints/sam2
cd ../checkpoints/sam2
wget https://dl.fbaipublicfiles.com/segment_anything_2/092824/sam2.1_hiera_large.pt

# 下载SAM2配置文件
mkdir -p ../../configs/sam2.1
cd ../../configs/sam2.1
wget https://raw.githubusercontent.com/facebookresearch/sam2/main/sam2/configs/sam2.1/sam2.1_hiera_l.yaml

3. 重启ComfyUI

重启后，在节点列表中即可看到「VideoMaMa」分类，所有节点已加载完成。

第二步：核心节点详解（3个关键节点）

1. VideoMaMa 管道加载器

作用：加载SVD基础模型和VideoMaMa微调UNet，生成推理管道。

输入参数	说明	默认值
base_model_path	基础SVD模型路径	checkpoints/stabilityai/stable-video-diffusion-img2vid-xt
unet_checkpoint_path	VideoMaMa UNet路径	checkpoints/VideoMaMa
precision	计算精度	fp16
输出：VIDEOMAMA_PIPELINE（供抠图推理使用）

2. VideoMaMa 运行

作用：核心抠图推理节点，输入视频帧+掩码，输出高精度Alpha遮罩。

输入参数	说明	默认值
pipeline	管道加载器输出的管道对象	-
images	输入视频帧（格式：[N, H, W, C]）	-
masks	掩码帧（格式：[N, H, W, C]）	-
seed	随机种子	42
max_resolution	最长轴处理分辨率（8的倍数）	1024（256-2048可调）
fps	视频帧率	7
motion_bucket_id	运动强度（值越高动态越强）	127
noise_aug_strength	噪声增强	0.0
输出：MASK（生成的精细Alpha遮罩帧，还原原始输入分辨率）