来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything,它是一种用于视频生成和控制的方法,它利用实体表示法来实现对视频生成中任意对象的运动控制。
例如,你有一段视频,你想要移动视频中的某个物体,比如让一只鸟飞起来或者让一辆车在街道上行驶,而不影响视频中的其他物体。DragAnything就是让你能够做到这一点的工具。
与现有的运动控制方法相比,DragAnything具有多项优势。首先,基于轨迹的方法在交互方面更加用户友好,尤其是在获取其他指导信号(如掩膜、深度图)需要投入大量劳动时。用户只需在交互过程中绘制一条线(轨迹)。其次,实体表示法能够作为开放域的嵌入方式,可以表示任何对象,因此能够实现对包括背景在内的各种实体的运动控制。最后,实体表示法允许同时对多个对象进行独立且互不干扰的运动控制。
大量实验证明,DragAnything在FVD、FID和用户研究方面均达到了最先进的性能,特别是在对象运动控制方面,DragAnything在人类投票中比先前的方法(如DragNUWA)高出26%。
主要功能和特点:
- 用户友好的交互: 用户只需要在视频上画一条线(轨迹),就像在地图上规划一条路线一样,就能控制视频中任何物体的运动。
- 开放领域嵌入: 这项技术能够识别和控制视频中的任何对象,包括背景,而不仅仅是前景中的物体。
- 多对象同时控制: 它允许用户同时对多个物体进行精确的运动控制,每个物体都可以有不同的运动轨迹。
工作原理:
DragAnything的工作原理基于一种叫做“实体表示”的概念。它使用一种深度学习模型,这个模型可以理解视频中的每个物体,并将其表示为一组特殊的特征(或称为“嵌入”)。当你在视频中画一条轨迹时,这个模型会识别出这条轨迹指向的物体,并根据轨迹来控制这个物体的运动。这个过程涉及到从视频中提取特征、识别物体、以及根据用户的输入来调整物体的运动。
应用场景:
- 电影和视频编辑: 视频编辑师可以使用DragAnything来调整特定物体的运动,创造更加戏剧化的效果或者修正拍摄时的问题。
- 游戏开发: 游戏设计师可以利用这项技术来创建动态的游戏环境,让玩家能够与视频中的物体互动。
- 虚拟现实和增强现实: 在VR或AR应用中,用户可能希望能够控制虚拟世界中的物体,DragAnything提供了一种直观的方式来实现这一点。
总的来说,DragAnything是一种强大的视频生成工具,它通过使用先进的深度学习技术,使得用户能够以非常直观和灵活的方式控制视频中的物体运动。
评论0