北京大学、腾讯PCG ARC实验室、南洋理工大学、 清华大学、澳门大学和深圳先进技术研究院的研究人员推出Image Conductor,它是一种用于视频合成的交互式工具,能够让用户对视频内容中的相机运动和对象移动进行精细且准确的控制。简单来说,就像一个视频版的“画图软件”,用户可以通过简单的操作来“指挥”视频中的元素如何移动。
- 项目主页:https://liyaowei-stu.github.io/project/ImageConductor
- GitHub:https://github.com/liyaowei-stu/ImageConductor
例如,你正在制作一段关于海滩的视频,你希望海滩上的椰子树随着海风轻轻摇摆,同时相机从海滩的一端平滑地移动到另一端。使用Image Conductor,你可以简单地绘制出椰子树的摇摆轨迹和相机的移动路径,然后系统就会根据这些指令生成相应的视频内容。这样,即使是没有专业视频编辑技能的用户,也能创造出专业级别的视频效果。
Image Conductor旨在通过单一图像精准控制镜头转换和物体运动以生成视频素材,通过相机LoRA权重和物体LoRA权重来区分不同的相机运动和物体运动。为了解决不良轨迹带来的电影摄影变化问题,研究团队在推理过程中引入了无相机引导技术,强化物体运动同时消除相机转换。此外,研究团队还开发了一条面向轨迹的视频运动数据整理流程,用以支持训练。
主要功能和特点:
- 精确控制:用户可以指定视频中的相机如何移动,比如推拉、平移,或者对象如何动作,比如人物行走或车辆行驶。
- 交互性:Image Conductor 允许用户通过绘制路径或提供指令来控制视频中的动作。
- 数据驱动:它使用大量的视频数据和轨迹注释来训练模型,从而实现对复杂动作的精确控制。
工作原理:
Image Conductor 的工作原理可以分为几个关键步骤:
- 视频数据构建:首先,它通过特定的流程收集和处理视频数据,确保数据中包含清晰的轨迹信息。
- 运动感知架构:使用一个基础模型(如Animatediff和SparseCtrl)来将静态图像转换为动态视频。
- 可控运动分离:通过在ControlNet中应用不同的低秩适应(LoRA)权重来区分和控制相机过渡和对象移动。
- 相机自由引导:在推理过程中,使用一种技术来增强对象移动并消除由不良轨迹引起的相机过渡。
具体应用场景:
- 电影制作:导演可以使用这项技术来预览和调整电影中的复杂相机动作和场景布置。
- 动画制作:动画师可以利用它来控制动画角色的动作,而不必手动制作每一帧。
- 虚拟现实:在虚拟现实环境中,可以实时生成与用户视角和动作相匹配的视频内容。
- 游戏开发:游戏开发者可以利用这项技术来创建更加动态和逼真的游戏场景。
评论0