由香港大学和阿里巴巴达摩院等机构的研究团队推出零样本视频对象插入框架VideoAnydoor ,它能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动。这项技术的核心挑战在于既要保留参考对象的外观细节,又要准确地模拟连贯的运动。
例如,你想要在一段视频中插入一个飞翔的无人机,并控制其在特定路径上移动。使用VideoAnydoor,你只需提供无人机的参考图像、源视频以及无人机的运动轨迹,该框架就能将无人机无缝地融入视频中,并按照指定的轨迹运动,同时保持视频中其他区域不变。
主要功能
主要特点
工作原理
1、框架整体流程
- 基于文本到视频扩散模型,将随机噪声、对象掩码和掩码后的视频进行拼接作为输入,同时将去除背景的参考图像输入 ID 提取器获取紧凑且具有判别性的 ID 特征,并与边界框序列一起注入扩散模型,作为身份和运动的粗略指导。
- 像素扭曲器模块以带有任意关键点的参考图像和相应的关键点轨迹为输入,根据轨迹对像素细节进行扭曲,并将扭曲后的特征与扩散 U - Net 融合,实现对外观细节和精确运动的联合建模。
- 引入重加权重建损失,增强对关键点周围区域和边界框内区域的学习,同时采用图像 - 视频混合训练策略,利用高质量图像数据扩充训练数据,以解决高质量视频数据稀缺的问题。
2、像素扭曲器工作方式
- 轨迹采样:在训练时,通过 X - Pose 或网格初始化关键点,经过非极大值抑制(NMS)筛选出具有较大运动的关键点,并跟踪其轨迹作为运动控制信号,不同颜色代表不同轨迹。
- 运动注入:将轨迹图和对应的参考图像分别由内容编码器和运动编码器编码,然后通过交叉注意力模块进行语义感知融合,融合后的特征再输入 ControlNet 提取多尺度中间特征,最后添加到扩散模型的相应层,实现对外观细节和精确运动的精细建模。
- 重加权重建:通过对边界框和轨迹覆盖区域进行下采样得到掩码,对这些区域的重建损失进行加权,增强对主体和运动的学习,同时保留其他区域的原始扩散损失。
评论0