字节跳动发布了一种新颖视频合成方法Boximator,主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型:硬边框(hard box)和软边框(soft box),允许用户以可视化的、精确或模糊的方式定义视频中对象的位置、形状和运动轨迹。
Boximator的核心功能是允许用户通过在视频帧中选择特定对象,并使用所谓的“硬框”(精确界定对象边界)和“软框”(定义对象必须存在的更宽泛区域)来控制这些对象在未来帧中的位置、形状或运动路径。
这个工具可以作为现有视频扩散模型的插件使用,通过冻结基础模型的权重,仅训练控制模块来实现这一功能。
主要功能:
- 灵活的对象运动控制:用户通过在关键帧上绘制硬边框来精准选择目标物体,并可以使用任意类型的边框来规划物体未来帧内的位置、大小和动作路径。
- 多对象同步控制:支持同时对前景和背景中的多个物体进行细致的运动调整,包括改变较大物体如人体的姿势,以及确保跨帧连续性时各个物体之间的关联和互动。
- 自动生成运动路径:在没有用户指定边框的情况下,系统能根据用户提供的两个边框或一个边框结合指定的运动路径,自动推算出物体大致的运动轨迹。
主要特点:
- 用户友好: 用户可以通过直观的框选方式来控制视频内容,而不需要复杂的文本描述。
- 灵活性: Boximator支持对前景和背景对象的运动控制,以及对大型对象(如人物)姿势的调整。
- 自跟踪技术: 为了简化学习过程,Boximator引入了自跟踪技术,使模型能够生成彩色边界框,并在每一帧中与Boximator约束对齐。
工作原理:
- Boximator作为现有视频扩散模型的一个插件,将每个边框约束编码为四个坐标、一个对象ID以及硬/软标记,然后通过新型自注意力层传递给基础模型。
- 在训练过程中,保持原始模型参数不变,只训练控制模块,从而保留模型原有的视频质量生成能力。
为了克服学习视觉与边框关联性的挑战,研究者创新性地引入了“自我跟踪”技术,让模型在训练时学会生成彩色边框,使得模型能够简单地完成两个任务:正确生成带有特定颜色的物体边框,并使其在每帧中与Boximator约束保持一致。训练结束后,模型不再生成可见的边框,但其内部表示仍然有效,能持续遵循边框约束。
应用场景:
- 视频编辑: Boximator可以用于视频编辑,允许用户在视频中添加或修改对象的运动,创造更丰富的视觉效果。
- 动画制作: 在动画制作中,Boximator可以用来控制角色和场景元素的运动,实现更精细的动画效果。
- 虚拟现实和游戏: 在虚拟现实和游戏开发中,Boximator可以帮助开发者创建动态场景,增强用户体验。
Boximator是一个强大的视频合成工具,它通过简化运动控制的复杂性,使得视频内容的创作变得更加直观和灵活。
评论0