LOADING

用于视频合成的交互式工具Image Conductor：让用户对视频内容中的相机运动和对象移动进行精细且准确的控制

新技术8个月前发布小马良

534 0

北京大学、腾讯PCG ARC实验室、南洋理工大学、清华大学、澳门大学和深圳先进技术研究院的研究人员推出Image Conductor，它是一种用于视频合成的交互式工具，能够让用户对视频内容中的相机运动和对象移动进行精细且准确的控制。简单来说，就像一个视频版的“画图软件”，用户可以通过简单的操作来“指挥”视频中的元素如何移动。

项目主页：https://liyaowei-stu.github.io/project/ImageConductor
GitHub：https://github.com/liyaowei-stu/ImageConductor

例如，你正在制作一段关于海滩的视频，你希望海滩上的椰子树随着海风轻轻摇摆，同时相机从海滩的一端平滑地移动到另一端。使用Image Conductor，你可以简单地绘制出椰子树的摇摆轨迹和相机的移动路径，然后系统就会根据这些指令生成相应的视频内容。这样，即使是没有专业视频编辑技能的用户，也能创造出专业级别的视频效果。

用于视频合成的交互式工具Image Conductor：让用户对视频内容中的相机运动和对象移动进行精细且准确的控制

Image Conductor旨在通过单一图像精准控制镜头转换和物体运动以生成视频素材，通过相机LoRA权重和物体LoRA权重来区分不同的相机运动和物体运动。为了解决不良轨迹带来的电影摄影变化问题，研究团队在推理过程中引入了无相机引导技术，强化物体运动同时消除相机转换。此外，研究团队还开发了一条面向轨迹的视频运动数据整理流程，用以支持训练。

主要功能和特点：

精确控制：用户可以指定视频中的相机如何移动，比如推拉、平移，或者对象如何动作，比如人物行走或车辆行驶。
交互性：Image Conductor 允许用户通过绘制路径或提供指令来控制视频中的动作。
数据驱动：它使用大量的视频数据和轨迹注释来训练模型，从而实现对复杂动作的精确控制。

工作原理：

Image Conductor 的工作原理可以分为几个关键步骤：

视频数据构建：首先，它通过特定的流程收集和处理视频数据，确保数据中包含清晰的轨迹信息。
运动感知架构：使用一个基础模型（如Animatediff和SparseCtrl）来将静态图像转换为动态视频。
可控运动分离：通过在ControlNet中应用不同的低秩适应（LoRA）权重来区分和控制相机过渡和对象移动。
相机自由引导：在推理过程中，使用一种技术来增强对象移动并消除由不良轨迹引起的相机过渡。

具体应用场景：

电影制作：导演可以使用这项技术来预览和调整电影中的复杂相机动作和场景布置。
动画制作：动画师可以利用它来控制动画角色的动作，而不必手动制作每一帧。
虚拟现实：在虚拟现实环境中，可以实时生成与用户视角和动作相匹配的视频内容。
游戏开发：游戏开发者可以利用这项技术来创建更加动态和逼真的游戏场景。

新技术 # Image Conductor # 视频合成

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Unpacking SDXL Turbo: 使用稀疏自编码器来解释和理解文本到图像模型，特别是SDXL Turbo模型的内部工作机制

Unpacking SDXL Turbo: 使用稀疏自编码器来解释和理解文本到图像模型，特别是SDXL Turbo模型的内部工作机制

新技术 # SDXL Turbo # 稀疏自编码器

4个月前

01860

GS^3：从多视角点光源输入图像中实时合成高质量的新光照和视图

GS^3：从多视角点光源输入图像中实时合成高质量的新光照和视图

新技术 # GS^3 # 多视角点光源

4个月前

02260

英伟达开源ConsiStory：免训练保持角色和物品一致性的文生图方法

英伟达开源ConsiStory：免训练保持角色和物品一致性的文生图方法

新技术 # ConsiStory # 英伟达

4个月前

04210

运动引导扩散模型Pix2Gif：用于图像到GIF（视频）的生成

运动引导扩散模型Pix2Gif：用于图像到GIF（视频）的生成

新技术 # GIF # Pix2Gif

12个月前

05280

暂无评论

none

暂无评论...