零样本视频对象插入框架VideoAnydoor:能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动

由香港大学和阿里巴巴达摩院等机构的研究团队推出零样本视频对象插入框架VideoAnydoor ,它能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动。这项技术的核心挑战在于既要保留参考对象的外观细节,又要准确地模拟连贯的运动。

例如,你想要在一段视频中插入一个飞翔的无人机,并控制其在特定路径上移动。使用VideoAnydoor,你只需提供无人机的参考图像、源视频以及无人机的运动轨迹,该框架就能将无人机无缝地融入视频中,并按照指定的轨迹运动,同时保持视频中其他区域不变。

主要功能

  1. 高保真视频对象插入:能够将给定的对象(以参考图像形式)无缝插入到视频中,并保持对象的精细外观细节,同时实现精确的运动控制,使插入对象的运动与视频场景自然融合。
  2. 灵活的运动轨迹控制:用户可以通过提供目标图像、绘制边界框或轨迹线来指定插入对象的运动轨迹,框架支持根据用户指令精确调整对象在视频中的位置和运动方式,如在视频中插入一个移动的物体并控制其运动路径。

主要特点

  1. 高保真细节保留:利用 ID 提取器注入全局身份信息,结合像素扭曲器(pixel warper)对参考图像的像素细节进行精确扭曲和融合,有效保留了插入对象的外观细节,使插入效果更加逼真。
  2. 精确运动控制:通过将边界框序列和轨迹线作为运动控制信号,实现了对插入对象运动的精确引导,能够在整个视频中保持对象运动的连贯性和准确性。
  3. 通用性和灵活性:不受插入对象的形状或外观限制,适用于各种类型的对象插入任务,并且用户可以灵活选择不同的控制方式来实现多样化的编辑需求,无需针对特定任务进行微调。

工作原理

1、框架整体流程

  • 基于文本到视频扩散模型,将随机噪声、对象掩码和掩码后的视频进行拼接作为输入,同时将去除背景的参考图像输入 ID 提取器获取紧凑且具有判别性的 ID 特征,并与边界框序列一起注入扩散模型,作为身份和运动的粗略指导。
  • 像素扭曲器模块以带有任意关键点的参考图像和相应的关键点轨迹为输入,根据轨迹对像素细节进行扭曲,并将扭曲后的特征与扩散 U - Net 融合,实现对外观细节和精确运动的联合建模。
  • 引入重加权重建损失,增强对关键点周围区域和边界框内区域的学习,同时采用图像 - 视频混合训练策略,利用高质量图像数据扩充训练数据,以解决高质量视频数据稀缺的问题。

2、像素扭曲器工作方式

  • 轨迹采样:在训练时,通过 X - Pose 或网格初始化关键点,经过非极大值抑制(NMS)筛选出具有较大运动的关键点,并跟踪其轨迹作为运动控制信号,不同颜色代表不同轨迹。
  • 运动注入:将轨迹图和对应的参考图像分别由内容编码器和运动编码器编码,然后通过交叉注意力模块进行语义感知融合,融合后的特征再输入 ControlNet 提取多尺度中间特征,最后添加到扩散模型的相应层,实现对外观细节和精确运动的精细建模。
  • 重加权重建:通过对边界框和轨迹覆盖区域进行下采样得到掩码,对这些区域的重建损失进行加权,增强对主体和运动的学习,同时保留其他区域的原始扩散损失。

具体应用场景

  1. 视频虚拟试穿:在时尚领域,可将不同款式的服装图像插入到人物视频中,实现虚拟试穿效果,如在展示服装的视频中,让模特 “穿上” 用户选择的衣服,且衣服的图案和细节在不同帧中都能自然呈现,体现了良好的运动一致性和细节保留能力。
  2. 视频换脸:适用于视频中的人脸替换任务,能够精确控制人脸的表情和动作,保持换脸后的身份一致性和自然度,比如在电影制作或视频特效中,可以将演员的脸替换为其他角色的脸,同时保持面部表情和动作的连贯性。
  3. 多区域编辑:支持在视频中对多个区域进行对象插入、替换或添加装饰等编辑操作,例如在一个场景视频中,精确地将帽子放置在人物头上,并实现帽子随着人物头部运动而自然移动的效果,还可用于在视频中插入标志或装饰品等。
0

评论0

没有账号?注册  忘记密码?