Netflix 联合保加利亚索菲亚大学团队,发布了一项视频编辑技术——VOID (Video Object and Interaction Deletion)。
- GitHub:https://github.com/netflix/void-model
- 模型:https://huggingface.co/netflix/void-model
- Demo:https://huggingface.co/spaces/sam-motamed/VOID
与现有的视频修复工具仅能“擦除”物体及其阴影不同,VOID 的核心突破在于理解并重建物理交互。它能推理出物体被移除后,场景中其他物体应发生的物理变化(如重力下落、碰撞停止、支撑失效),从而生成符合现实物理规律的完美视频。

经典案例:如果你移除一个抱着吉他的人,传统工具会让吉他悬浮在空中;而 VOID 会理解吉他失去了支撑,从而自动生成吉他自然掉落的动画。
核心突破:从“视觉修补”到“物理推理”
1. 交互感知 (Interaction-Aware)
VOID 不仅仅关注“要删除什么”,更关注“删除后会发生什么”。
- 传统工具:只处理像素填补,忽略物体间的因果联系(如手推倒多米诺骨牌,删掉手后骨牌依然倒下,逻辑错误)。
- VOID:能识别支撑、碰撞、推动等物理关系。删除施力者,受力者的运动状态会自动修正(如搅拌机失去操作者自动停止,气球失去抓握者自动飘走)。
2. 四值掩码技术 (Quadmask)
为了实现精准控制,VOID 引入了一种创新的 Quadmask 条件输入,将画面分为四个逻辑区域:
- 主要对象 (Primary Object):用户指定要移除的目标。
- 受影响区域 (Affected Region):因目标移除而发生物理变化的区域(如掉落的物体、暴露的背景)。
- 重叠区域 (Overlap):目标与受影响区域的交界处,需平滑过渡。
- 背景 (Background):完全不受影响,保持原样的区域。
这种精细的语义分割让模型知道哪里该变、哪里不该变,以及如何变。
技术架构与工作流程
VOID 基于 CogVideoX-Fun-V1.5-5b-InP 构建,采用 双阶段顺序训练 (Two-Pass Sequential Training) 策略:
第一阶段:基础修复 (Pass 1)
- 模型:
void_pass1.safetensors - 功能:基于 Quadmask 和文本提示,执行核心的物体移除和物理场景重绘。
- 适用性:对于大多数短视频和简单交互场景,仅使用 Pass 1 即可获得极佳效果。
第二阶段:扭曲噪声精炼 (Pass 2)
- 模型:
void_pass2.safetensors(可选) - 功能:引入光流扭曲 (Optical Flow Warping) 和潜在噪声初始化,专门优化长片段的时间一致性,消除闪烁和形变。
- 适用性:适用于对连贯性要求极高的长镜头或复杂运动场景。
| 组件 | 规格 |
|---|---|
| 基础架构 | CogVideoX 3D Transformer (5B 参数) |
| 输入条件 | 视频 + Quadmask + 文本提示 |
| 分辨率 | 384x672 (默认) |
| 最大帧数 | 197 帧 |
| 精度优化 | BF16 / FP8 量化 (节省显存) |
性能表现:人类偏好第一
在严格的盲测对比中,VOID 展现了统治级的实力:
- 人类偏好率:64.8% 的测试者首选 VOID 生成的结果,远超 Runway 等商业工具及开源竞品。
- 物理合理性:在“互动与物理”评分项上独占鳌头,是唯一能稳定处理复杂因果关系的模型。
- 泛化能力:即使在训练集中未出现的场景(如特殊的平衡结构、复杂的流体互动),也能正确推演物理后果。
如何使用 VOID
目前 VOID 已开源模型权重,开发者可通过 Hugging Face 下载并本地部署。
硬件要求
- GPU 显存:推荐 40GB+ (如 NVIDIA A100, H100)。
- 量化支持:支持 FP8 量化以降低显存需求,但高分辨率/长帧数仍建议大显存卡。
快速开始
- 下载模型:
- 环境配置:
- 基于 CogVideoX 环境,安装依赖。
- 参考官方提供的 Jupyter Notebook 示例。
- 运行推理:
# 示例命令 (具体参数请参考官方 repo) python infer.py \ --video_path input.mp4 \ --mask_path mask.png \ --prompt "A scene without the person, the guitar falls naturally" \ --config.video_model.transformer_path ./void_pass1.safetensors \ --model_checkpoint ./void_pass2.safetensors # 可选
应用场景展望
- 影视后期:无需昂贵的手工逐帧修图,一键移除穿帮的麦克风、工作人员或威亚,并自动修复光影和物理互动。
- 内容合规:快速移除视频中涉及版权的 Logo、不当物品或敏感人物,同时保持场景自然。
- 创意创作:实现“魔法般”的视觉效果,如让人物凭空消失且手中的物品散落一地,增强叙事张力。
- 隐私保护:在监控视频或公开素材中移除特定行人或车辆,并还原被遮挡的背景动态。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















