字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向

字节跳动发布了一种新颖视频合成方法Boximator,主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型:硬边框(hard box)软边框(soft box),允许用户以可视化的、精确或模糊的方式定义视频中对象的位置、形状和运动轨迹。

Boximator的核心功能是允许用户通过在视频帧中选择特定对象,并使用所谓的“硬框”(精确界定对象边界)“软框”(定义对象必须存在的更宽泛区域)来控制这些对象在未来帧中的位置、形状或运动路径。

这个工具可以作为现有视频扩散模型的插件使用,通过冻结基础模型的权重,仅训练控制模块来实现这一功能。

主要功能:

  1. 灵活的对象运动控制:用户通过在关键帧上绘制硬边框来精准选择目标物体,并可以使用任意类型的边框来规划物体未来帧内的位置、大小和动作路径。
  1. 多对象同步控制:支持同时对前景和背景中的多个物体进行细致的运动调整,包括改变较大物体如人体的姿势,以及确保跨帧连续性时各个物体之间的关联和互动。
  1. 自动生成运动路径:在没有用户指定边框的情况下,系统能根据用户提供的两个边框或一个边框结合指定的运动路径,自动推算出物体大致的运动轨迹。

主要特点:

  1. 用户友好: 用户可以通过直观的框选方式来控制视频内容,而不需要复杂的文本描述。
  2. 灵活性: Boximator支持对前景和背景对象的运动控制,以及对大型对象(如人物)姿势的调整。
  3. 自跟踪技术: 为了简化学习过程,Boximator引入了自跟踪技术,使模型能够生成彩色边界框,并在每一帧中与Boximator约束对齐。

工作原理:

  • Boximator作为现有视频扩散模型的一个插件,将每个边框约束编码为四个坐标、一个对象ID以及硬/软标记,然后通过新型自注意力层传递给基础模型。
  • 在训练过程中,保持原始模型参数不变,只训练控制模块,从而保留模型原有的视频质量生成能力。

为了克服学习视觉与边框关联性的挑战,研究者创新性地引入了“自我跟踪”技术,让模型在训练时学会生成彩色边框,使得模型能够简单地完成两个任务:正确生成带有特定颜色的物体边框,并使其在每帧中与Boximator约束保持一致。训练结束后,模型不再生成可见的边框,但其内部表示仍然有效,能持续遵循边框约束。

应用场景:

  • 视频编辑: Boximator可以用于视频编辑,允许用户在视频中添加或修改对象的运动,创造更丰富的视觉效果。
  • 动画制作: 在动画制作中,Boximator可以用来控制角色和场景元素的运动,实现更精细的动画效果。
  • 虚拟现实和游戏: 在虚拟现实和游戏开发中,Boximator可以帮助开发者创建动态场景,增强用户体验。

Boximator是一个强大的视频合成工具,它通过简化运动控制的复杂性,使得视频内容的创作变得更加直观和灵活。

0

评论0

没有账号?注册  忘记密码?