新型视频编辑技术ReVideo:在视频中对特定区域进行精确的内容和运动控制编辑

北京大学深圳研究生院 、ARC实验室,腾讯 PCG和东京大学的研究人员推出新型视频编辑技术ReVideo,ReVideo的核心能力是在视频中对特定区域进行精确的内容和运动控制编辑。这意味着用户可以随心所欲地改变视频中某个对象的样子或者它的运动轨迹,同时保持视频其他部分的原样。例如,你手里有一段视频,里面有一个正在走路的人。使用ReVideo,你可以轻易地在视频中为这个人添加一副太阳镜,或者改变他的行走路线,甚至在天空中加入一架飞机,而视频的其他部分则保持不变。

ReVideo能够通过同时指定内容与运动指令,实现在视频特定区域进行精细编辑。开发人员借助调整首帧内容来辅助编辑,同时引入基于轨迹的运动控制机制,为用户提供了直观的操作体验。ReVideo直面内容与运动控制之间存在的耦合及训练不均衡问题,并提出了一套分三阶段实施的训练策略,逐步从宏观到微观层面将其二者解耦。此外,开发人员设计了一种时空自适应融合模块,确保在不同的时间采样点和空间位置上,内容与运动控制得以有效整合。广泛的实验验证了ReVideo在多种精确视频编辑场景下的卓越表现,包括:(1) 在维持原有运动模式下,仅对视频的特定内容进行局部更改;(2) 保持视频内容不变,单独定制新的运动路径;(3) 同时对视频的内容与运动轨迹进行调整。尤为重要的是,该方法能自然延伸应用于多区域编辑任务,无需额外训练,展现了高度的灵活性和稳定性。

主要功能:

  1. 局部内容修改:在视频的特定区域进行内容更改,如更换物体或人物的外观。
  2. 运动轨迹定制:调整视频中物体或人物的运动轨迹,如改变行走方向或速度。
  3. 多区域编辑:能够同时对视频的多个区域进行编辑,而无需特定的训练。

主要特点:

  • 直观的用户交互体验:通过修改第一帧和绘制运动轨迹线来控制视频编辑。
  • 三阶段训练策略:逐步解耦内容和运动控制,从粗糙到精细逐步训练。
  • 时空自适应融合模块:在不同的采样步骤和空间位置整合内容和运动控制。

工作原理:

ReVideo的工作原理可以分为以下几个步骤:

  1. 预备阶段:使用一个高质量的视频生成模型(如Stable Video Diffusion, SVD)作为基础。
  2. 任务制定:确定需要编辑的视频内容和运动条件,包括编辑区域的第一帧和运动轨迹。
  3. 三阶段训练:首先,独立训练运动轨迹控制;其次,解耦训练内容控制和运动控制;最后,进行去块训练以保持编辑和未编辑区域的一致性。
  4. 时空自适应融合:设计一个融合模块,根据编辑区域和时间步长动态调整内容和运动条件的融合权重。

具体应用场景:

  1. 电影和视频制作:在电影后期制作中,可以用于精准调整场景中元素的运动或外观。
  2. 虚拟现实内容创建:在虚拟现实环境中,可以实时编辑视频内容和运动轨迹,提供更加丰富的用户体验。
  3. 个人视频编辑:普通用户可以使用这项技术来个性化编辑自己的视频,如家庭聚会、旅行视频等。
  4. 广告和营销:在广告视频制作中,可以精确控制产品展示的运动轨迹和外观。

总的来说,ReVideo提供了一种强大的工具,它允许用户以直观和精确的方式对视频内容进行编辑,这在以往的技术中是很难实现的。这项技术的应用前景非常广泛,可以极大地丰富视频内容的创作和编辑方式。

0

评论0

没有账号?注册  忘记密码?