Netflix 推出 VOID：能理解物理交互的视频物体移除技术

视频模型11小时前发布小马良

3 0

Netflix 联合保加利亚索菲亚大学团队，发布了一项视频编辑技术——VOID (Video Object and Interaction Deletion)。

GitHub：https://github.com/netflix/void-model
模型：https://huggingface.co/netflix/void-model
Demo：https://huggingface.co/spaces/sam-motamed/VOID

与现有的视频修复工具仅能“擦除”物体及其阴影不同，VOID 的核心突破在于理解并重建物理交互。它能推理出物体被移除后，场景中其他物体应发生的物理变化（如重力下落、碰撞停止、支撑失效），从而生成符合现实物理规律的完美视频。

经典案例：如果你移除一个抱着吉他的人，传统工具会让吉他悬浮在空中；而 VOID 会理解吉他失去了支撑，从而自动生成吉他自然掉落的动画。

核心突破：从“视觉修补”到“物理推理”

1. 交互感知 (Interaction-Aware)

VOID 不仅仅关注“要删除什么”，更关注“删除后会发生什么”。

传统工具：只处理像素填补，忽略物体间的因果联系（如手推倒多米诺骨牌，删掉手后骨牌依然倒下，逻辑错误）。
VOID：能识别支撑、碰撞、推动等物理关系。删除施力者，受力者的运动状态会自动修正（如搅拌机失去操作者自动停止，气球失去抓握者自动飘走）。

2. 四值掩码技术 (Quadmask)

为了实现精准控制，VOID 引入了一种创新的 Quadmask 条件输入，将画面分为四个逻辑区域：

主要对象 (Primary Object)：用户指定要移除的目标。
受影响区域 (Affected Region)：因目标移除而发生物理变化的区域（如掉落的物体、暴露的背景）。
重叠区域 (Overlap)：目标与受影响区域的交界处，需平滑过渡。
背景 (Background)：完全不受影响，保持原样的区域。

这种精细的语义分割让模型知道哪里该变、哪里不该变，以及如何变。

技术架构与工作流程

VOID 基于 CogVideoX-Fun-V1.5-5b-InP 构建，采用 双阶段顺序训练 (Two-Pass Sequential Training) 策略：

第一阶段：基础修复 (Pass 1)

模型：void_pass1.safetensors
功能：基于 Quadmask 和文本提示，执行核心的物体移除和物理场景重绘。
适用性：对于大多数短视频和简单交互场景，仅使用 Pass 1 即可获得极佳效果。

第二阶段：扭曲噪声精炼 (Pass 2)

模型：void_pass2.safetensors (可选)
功能：引入光流扭曲 (Optical Flow Warping) 和潜在噪声初始化，专门优化长片段的时间一致性，消除闪烁和形变。
适用性：适用于对连贯性要求极高的长镜头或复杂运动场景。

组件	规格
基础架构	CogVideoX 3D Transformer (5B 参数)
输入条件	视频 + Quadmask + 文本提示
分辨率	384x672 (默认)
最大帧数	197 帧
精度优化	BF16 / FP8 量化 (节省显存)

性能表现：人类偏好第一

在严格的盲测对比中，VOID 展现了统治级的实力：

人类偏好率：64.8% 的测试者首选 VOID 生成的结果，远超 Runway 等商业工具及开源竞品。
物理合理性：在“互动与物理”评分项上独占鳌头，是唯一能稳定处理复杂因果关系的模型。
泛化能力：即使在训练集中未出现的场景（如特殊的平衡结构、复杂的流体互动），也能正确推演物理后果。

如何使用 VOID

目前 VOID 已开源模型权重，开发者可通过 Hugging Face 下载并本地部署。

硬件要求

GPU 显存：推荐 40GB+ (如 NVIDIA A100, H100)。
量化支持：支持 FP8 量化以降低显存需求，但高分辨率/长帧数仍建议大显存卡。

快速开始

下载模型：
- VOID Pass 1 (基础)
- VOID Pass 2 (精炼)
环境配置：
- 基于 CogVideoX 环境，安装依赖。
- 参考官方提供的 Jupyter Notebook 示例。

运行推理：

# 示例命令 (具体参数请参考官方 repo)
python infer.py \
  --video_path input.mp4 \
  --mask_path mask.png \
  --prompt "A scene without the person, the guitar falls naturally" \
  --config.video_model.transformer_path ./void_pass1.safetensors \
  --model_checkpoint ./void_pass2.safetensors # 可选