Netflix 推出 VOID:能理解物理交互的视频物体移除技术

视频模型11小时前发布 小马良
3 0

Netflix 联合保加利亚索菲亚大学团队,发布了一项视频编辑技术——VOID (Video Object and Interaction Deletion)

  • GitHub:https://github.com/netflix/void-model
  • 模型:https://huggingface.co/netflix/void-model
  • Demo:https://huggingface.co/spaces/sam-motamed/VOID

与现有的视频修复工具仅能“擦除”物体及其阴影不同,VOID 的核心突破在于理解并重建物理交互。它能推理出物体被移除后,场景中其他物体应发生的物理变化(如重力下落、碰撞停止、支撑失效),从而生成符合现实物理规律的完美视频。

Netflix 推出 VOID:能理解物理交互的视频物体移除技术

经典案例:如果你移除一个抱着吉他的人,传统工具会让吉他悬浮在空中;而 VOID 会理解吉他失去了支撑,从而自动生成吉他自然掉落的动画

核心突破:从“视觉修补”到“物理推理”

1. 交互感知 (Interaction-Aware)

VOID 不仅仅关注“要删除什么”,更关注“删除后会发生什么”。

  • 传统工具:只处理像素填补,忽略物体间的因果联系(如手推倒多米诺骨牌,删掉手后骨牌依然倒下,逻辑错误)。
  • VOID:能识别支撑、碰撞、推动等物理关系。删除施力者,受力者的运动状态会自动修正(如搅拌机失去操作者自动停止,气球失去抓握者自动飘走)。

2. 四值掩码技术 (Quadmask)

为了实现精准控制,VOID 引入了一种创新的 Quadmask 条件输入,将画面分为四个逻辑区域:

  1. 主要对象 (Primary Object):用户指定要移除的目标。
  2. 受影响区域 (Affected Region):因目标移除而发生物理变化的区域(如掉落的物体、暴露的背景)。
  3. 重叠区域 (Overlap):目标与受影响区域的交界处,需平滑过渡。
  4. 背景 (Background):完全不受影响,保持原样的区域。

这种精细的语义分割让模型知道哪里该变、哪里不该变,以及如何变。

技术架构与工作流程

VOID 基于 CogVideoX-Fun-V1.5-5b-InP 构建,采用 双阶段顺序训练 (Two-Pass Sequential Training) 策略:

第一阶段:基础修复 (Pass 1)

  • 模型void_pass1.safetensors
  • 功能:基于 Quadmask 和文本提示,执行核心的物体移除和物理场景重绘。
  • 适用性:对于大多数短视频和简单交互场景,仅使用 Pass 1 即可获得极佳效果。

第二阶段:扭曲噪声精炼 (Pass 2)

  • 模型void_pass2.safetensors (可选)
  • 功能:引入光流扭曲 (Optical Flow Warping) 和潜在噪声初始化,专门优化长片段的时间一致性,消除闪烁和形变。
  • 适用性:适用于对连贯性要求极高的长镜头或复杂运动场景。
组件规格
基础架构CogVideoX 3D Transformer (5B 参数)
输入条件视频 + Quadmask + 文本提示
分辨率384x672 (默认)
最大帧数197 帧
精度优化BF16 / FP8 量化 (节省显存)

性能表现:人类偏好第一

在严格的盲测对比中,VOID 展现了统治级的实力:

  • 人类偏好率64.8% 的测试者首选 VOID 生成的结果,远超 Runway 等商业工具及开源竞品。
  • 物理合理性:在“互动与物理”评分项上独占鳌头,是唯一能稳定处理复杂因果关系的模型。
  • 泛化能力:即使在训练集中未出现的场景(如特殊的平衡结构、复杂的流体互动),也能正确推演物理后果。

如何使用 VOID

目前 VOID 已开源模型权重,开发者可通过 Hugging Face 下载并本地部署。

硬件要求

  • GPU 显存:推荐 40GB+ (如 NVIDIA A100, H100)。
  • 量化支持:支持 FP8 量化以降低显存需求,但高分辨率/长帧数仍建议大显存卡。

快速开始

  1. 下载模型
  2. 环境配置
    • 基于 CogVideoX 环境,安装依赖。
    • 参考官方提供的 Jupyter Notebook 示例。
  3. 运行推理
    # 示例命令 (具体参数请参考官方 repo)
    python infer.py \
      --video_path input.mp4 \
      --mask_path mask.png \
      --prompt "A scene without the person, the guitar falls naturally" \
      --config.video_model.transformer_path ./void_pass1.safetensors \
      --model_checkpoint ./void_pass2.safetensors # 可选
    

应用场景展望

  • 影视后期:无需昂贵的手工逐帧修图,一键移除穿帮的麦克风、工作人员或威亚,并自动修复光影和物理互动。
  • 内容合规:快速移除视频中涉及版权的 Logo、不当物品或敏感人物,同时保持场景自然。
  • 创意创作:实现“魔法般”的视觉效果,如让人物凭空消失且手中的物品散落一地,增强叙事张力。
  • 隐私保护:在监控视频或公开素材中移除特定行人或车辆,并还原被遮挡的背景动态。
© 版权声明

相关文章

暂无评论

none
暂无评论...