DragAnything：视频生成中任意对象的运动控制

663 0

来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything，它是一种用于视频生成和控制的方法，它利用实体表示法来实现对视频生成中任意对象的运动控制。

例如，你有一段视频，你想要移动视频中的某个物体，比如让一只鸟飞起来或者让一辆车在街道上行驶，而不影响视频中的其他物体。DragAnything就是让你能够做到这一点的工具。

与现有的运动控制方法相比，DragAnything具有多项优势。首先，基于轨迹的方法在交互方面更加用户友好，尤其是在获取其他指导信号（如掩膜、深度图）需要投入大量劳动时。用户只需在交互过程中绘制一条线（轨迹）。其次，实体表示法能够作为开放域的嵌入方式，可以表示任何对象，因此能够实现对包括背景在内的各种实体的运动控制。最后，实体表示法允许同时对多个对象进行独立且互不干扰的运动控制。

大量实验证明，DragAnything在FVD、FID和用户研究方面均达到了最先进的性能，特别是在对象运动控制方面，DragAnything在人类投票中比先前的方法（如DragNUWA）高出26%。

主要功能和特点：

用户友好的交互： 用户只需要在视频上画一条线（轨迹），就像在地图上规划一条路线一样，就能控制视频中任何物体的运动。

开放领域嵌入： 这项技术能够识别和控制视频中的任何对象，包括背景，而不仅仅是前景中的物体。

多对象同时控制： 它允许用户同时对多个物体进行精确的运动控制，每个物体都可以有不同的运动轨迹。

工作原理：

DragAnything的工作原理基于一种叫做“实体表示”的概念。它使用一种深度学习模型，这个模型可以理解视频中的每个物体，并将其表示为一组特殊的特征（或称为“嵌入”）。当你在视频中画一条轨迹时，这个模型会识别出这条轨迹指向的物体，并根据轨迹来控制这个物体的运动。这个过程涉及到从视频中提取特征、识别物体、以及根据用户的输入来调整物体的运动。