LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成

139 0

在图像到视频合成领域，基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而，现有的2D拖动方法在处理物体的平面外运动时存在模糊性，难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题，南京大学软件新技术国家重点实验室、蚂蚁集团、浙江大学和香港科技大学的研究人员提出了一种新的交互范式——LeviTor，通过引入深度维度，使用户能够在3D空间中精确控制物体的运动轨迹。

项目主页：https://ppetrichor.github.io/levitor.github.io
GitHub：https://github.com/qiuyu96/LeviTor
模型：https://huggingface.co/hlwang06/LeviTor

LeviTor专注于3D轨迹导向的图像到视频合成。LeviTor能够根据用户的输入生成具有受控遮挡、更好的深度变化和复杂的3D轨道运动的视频。例如，给定一个初始帧，用户可以使用LeviTor的推理管道轻松绘制3D轨迹，以表示他们对指定区域的期望运动。

LeviTor 的核心思想

LeviTor 的关键创新在于将对象掩码抽象为几个聚类点，并为这些点分配相对深度信息。具体来说，用户可以通过拖动这些聚类点来定义物体在3D空间中的运动路径，同时为每个点指定其深度值。这种做法不仅保留了2D拖动的便利性，还扩展了交互的维度，使得用户能够更自然地控制物体的三维运动。

主要功能：

3D轨迹控制： 用户可以通过在2D空间中绘制轨迹并指定相对深度，来控制视频中对象的运动轨迹。
照片真实感视频生成： 从静态图像生成具有真实感的视频。
用户友好的交互： 用户界面简化了3D轨迹的输入过程，使得非专业用户也能轻松创建视频内容。

主要特点：

深度信息融合： 通过结合深度信息和K-means聚类的点，LeviTor能够在不需要显式3D轨迹估计的情况下，捕获对象轨迹的基本3D属性。
创新的控制信号表示： 通过聚合或分离聚类点及其深度，清晰地指示对象之间的遮挡和深度变化。
高质量的训练数据集： 利用SAM2提供的高质量视频对象分割（VOS）数据集进行训练，有效捕获复杂场景中的对象运动和交互。

方法概述

对象掩码聚类：LeviTor 首先将输入图像中的目标对象进行分割，生成对象掩码。然后，通过对掩码进行聚类分析，提取出几个代表性的控制点。这些点可以理解为物体的关键部位或特征点，用户可以通过拖动这些点来定义物体的运动轨迹。
深度信息分配：为了支持3D轨迹控制，LeviTor 允许用户为每个控制点分配相对深度值。深度信息的引入使得用户可以在Z轴上控制物体的远近关系，从而实现对物体在3D空间中的精确操纵。
实例信息编码：除了深度信息，LeviTor 还考虑了物体的实例信息（如姿态、形状等），并将这些信息编码为控制信号。这有助于模型更好地理解物体的动态变化，生成更加逼真的运动效果。
视频扩散模型：LeviTor 将上述控制信号（包括聚类点的位置、深度信息和实例信息）作为输入，传递给一个基于扩散模型的视频生成网络。该网络能够根据用户的交互指令，逐步生成符合预期的视频帧，最终合成一段连贯且逼真的视频。