3DTrajMaster:专注于在视频生成中控制多实体的三维(3D)运动轨迹

香港中文大学、快手科技和浙江大学的研究人员介绍了3DTrajMaster,一个用于多实体3D运动可控视频生成的强大控制器。与传统的2D控制信号相比,3DTrajMaster利用6自由度(6DoF)姿态序列来精确控制多个实体在3D空间中的运动,从而克服了2D控制信号在表达3D特性方面的固有限制。该方法的核心是一个即插即用的3D运动基础对象注入器,结合门控自注意力机制,能够将多个输入实体与其各自的3D轨迹融合。此外,为了保持视频扩散先验并提高泛化能力,研究者们引入了领域适配器和退火采样策略。为了解决训练数据不足的问题,他们还构建了一个名为360运动数据集的新数据集。

例如,我们要生成一个视频,其中包含一个人、一只动物和一辆车在城市街道上移动。3DTrajMaster能够根据这些实体的描述和它们在3D空间中的运动轨迹,生成一个高保真度的视频,精确地模拟这些实体的动态。

主要贡献

  1. 6自由度(6DoF)姿态控制:3DTrajMaster允许用户通过指定实体的6DoF姿态序列(包括位置和旋转)来精确控制多个实体在3D空间中的运动。这比传统的2D控制信号更加灵活和准确,能够更好地表达复杂的3D运动。
  2. 3D运动基础对象注入器:该方法的核心是一个即插即用的3D运动基础对象注入器,它通过门控自注意力机制将多个输入实体与其各自的3D轨迹融合。这种设计使得模型能够在生成过程中动态地调整每个实体的运动,确保它们之间的协调性和一致性。
  3. 保留视频扩散先验:为了保持视频的自然性和泛化能力,研究者们利用注入器架构来保留视频扩散先验。这有助于模型在生成过程中保持视频的时间连贯性和空间一致性,避免生成不自然或不合理的运动。
  4. 领域适配器和退火采样策略:为了减轻视频质量下降的问题,研究者们在训练期间引入了一个领域适配器,帮助模型适应不同的场景和环境。在推理期间,他们采用了退火采样策略,逐步减少噪声,从而提高生成视频的质量和稳定性。
  5. 360运动数据集:由于缺乏适合训练3D运动控制模型的数据集,研究者们构建了一个名为360运动数据集的新数据集。该数据集包含3D人类和动物资产的运动,这些资产与GPT生成的轨迹相关联,并通过在多样化3D虚幻引擎平台上均匀分布的12个摄像机捕捉其运动。这个数据集为3DTrajMaster的训练提供了丰富的3D运动样本。

主要功能和特点

  1. 多实体3D运动控制:3DTrajMaster能够处理多个实体在三维空间中的运动,这在以往的视频生成技术中是难以实现的。
  2. 6DoF姿态序列输入:系统接受每个实体的6DoF姿态序列作为输入,这包括了实体的位置和旋转信息。
  3. 插拔式3D运动基础对象注入器:这是3DTrajMaster的核心,它通过门控自注意力机制将多个输入实体与其各自的3D轨迹融合。
  4. 视频扩散先验保持:通过注入器架构保持视频扩散先验,这对于模型的泛化能力至关重要。
  5. 域适配器和退火采样策略:为了提高视频质量并减少训练数据不足带来的影响,3DTrajMaster引入了域适配器和退火采样策略。

工作原理

3DTrajMaster的工作原理可以分为以下几个步骤:

  1. 实体和轨迹嵌入:使用冻结的文本编码器和可学习的姿态编码器将实体描述和姿态序列投影到潜在嵌入中。
  2. 实体-轨迹对应关系:通过实体-wise加法将实体和轨迹嵌入结合起来,形成对应的关系。
  3. 门控自注意力层:使用门控自注意力层来处理多个实体-轨迹对,并进一步提炼相关特征。
  4. 视频扩散模型:在训练阶段,使用域适配器来减少由合成训练数据引入的视频域偏移。
  5. 退火采样:在推理过程中,使用退火采样策略来增强视频质量,先定义一般对象运动,然后在后期阶段退出,过渡到标准的视频生成过程。

实验结果

大量的实验表明,3DTrajMaster在控制多实体3D运动的准确性和泛化能力方面达到了新的最先进水平。具体来说:

  • 准确性:3DTrajMaster能够精确地生成符合用户期望的3D运动轨迹,尤其是在复杂场景中,多个实体之间的协调性得到了很好的保持。
  • 泛化能力:通过对不同场景和环境的测试,3DTrajMaster展示了强大的泛化能力,能够在未见过的场景中生成高质量的3D运动视频。
  • 视频质量:通过领域适配器和退火采样策略,3DTrajMaster生成的视频质量得到了显著提升,避免了常见的伪影和不自然的运动。

0

评论0

没有账号?注册  忘记密码?