由北京大学经济与管理学院、腾讯PCG ARC实验室、大湾区大学与香港中文大学联合提出的新型视频合成方法 GenCompositor,为视频创作中的“前景-背景融合”问题提供了一种自动化解决方案。该方法允许用户将一段动态视频(如奔跑的人、飞舞的火焰)自然地合成到另一段背景视频中,并能通过指定轨迹、大小等参数控制合成效果,显著降低专业视频制作门槛。
- 项目主页:https://gencompositor.github.io
- GitHub:https://github.com/TencentARC/GenCompositor
- 模型:https://huggingface.co/TencentARC/GenCompositor
这项工作不仅提出了新的模型架构,还构建了首个面向生成式视频合成任务的大规模数据集 VideoComp(包含61,000组高质量视频对),为后续研究提供了重要基础。

为什么需要自动化视频合成?
在影视制作、广告创意或短视频生产中,常常需要将一个场景中的动态元素(如人物、动物、特效)迁移到另一个环境中。例如,把一只飞翔的鸟加入城市夜景,或将一场雨融入老电影片段。
传统做法依赖专业团队逐帧抠像、调色、匹配光影与运动,流程繁琐、成本高昂。尽管已有图像合成与视频编辑工具,但大多数仍难以实现动态元素的自然融合与用户可控的灵活编辑。
为此,研究团队提出“生成式视频合成”这一新任务范式:利用生成模型,以交互方式自适应地将前景视频的身份和运动信息注入目标背景视频,同时保持背景连贯、前景融合自然。
GenCompositor 能做什么?
GenCompositor 的核心能力是:
将一个视频“放进”另一个视频里,并让用户控制它怎么动、有多大、往哪走。
具体功能包括:
- ✅ 自动合成:无需手动对齐帧、调整边缘,系统自动完成前景与背景的时空融合。
- ✅ 轨迹控制:用户可指定前景元素在背景视频中的运动路径(如画一条曲线表示飞行轨迹)。
- ✅ 比例调节:支持缩放前景对象,适应不同构图需求。
- ✅ 保持背景一致性:合成后背景内容不变形、不闪烁,时间连续性良好。
- ✅ 保留动态特征:前景的运动模式、光影变化等细节得以完整迁移。
举个例子:你可以上传一段火焰喷发的视频,再选择一段建筑视频作为背景,然后设定火焰从窗口喷出的轨迹和大小——GenCompositor 会生成一段看起来像是真实拍摄的“着火大楼”视频。
技术实现:如何做到精准融合?
GenCompositor 基于扩散变换器(Diffusion Transformer, DiT)架构设计,针对视频合成任务的关键挑战进行了多项创新:
1. 背景保留分支(Lightweight Background Preservation Branch)
为了防止合成过程破坏原有背景的时空一致性,模型引入一个轻量级分支专门处理背景视频。通过掩码令牌注入机制,在去噪过程中屏蔽前景区域,确保背景不受干扰。
2. DiT融合块 + 全自注意力机制
前景信息的注入依赖于一个新型的DiT融合块,其采用全自注意力结构,使前景与背景在特征层面实现深度交互,提升融合自然度。
此外,研究团队设计了一种前景增强训练策略,通过对前景区域施加更强的学习权重,强化模型对动态元素的建模能力。
3. 扩展旋转位置嵌入(ERoPE)
这是本工作的关键创新之一。由于前景与背景视频可能具有不同的分辨率、长宽比或空间布局,直接拼接容易错位。
ERoPE 是一种新型位置编码方式,能够动态扩展并旋转位置信息,使模型准确理解用户指定的合成位置与尺度,从而实现跨布局的精确对齐。
4. 控制信号输入转换
用户输入的轨迹和比例信息被转化为一系列控制向量,嵌入到模型的条件输入中,指导生成过程。整个流程支持端到端训练,响应直观操作。

实验表现:比现有方法更优
研究团队在多个维度评估了 GenCompositor 的性能:
| 对比任务 | 对比方法 | 主要指标优势 |
|---|---|---|
| 视频调和(Video Harmonization) | Harmonizer, VideoTripletTransformer | PSNR ↑、SSIM ↑、LPIPS ↓、CLIP-I ↓ |
| 轨迹控制生成 | Tora, Revideo | 主体一致性 ↑、背景稳定性 ↑、运动平滑性 ↑、美学评分 ↑ |
在用户研究中,参与者普遍认为 GenCompositor 生成的结果更具真实感和视觉吸引力,在两种任务上均获得最高偏好率。
此外,该方法展现出良好的泛化能力,可用于:
- 视频修复:移除视频中的特定对象并补全背景;
- 虚拟场景构建:快速生成包含指定动作的合成视频,用于AI内容生成 pipeline。
数据集支持:VideoComp
为推动该方向发展,团队发布了 VideoComp 数据集,包含:
- 61,000 组配对视频(前景 + 背景 + 合成结果)
- 高清分辨率(最高达1080p)
- 多样化场景覆盖(城市、自然、室内、运动等)
- 标注完整的运动轨迹与比例信息
该数据集可用于训练和评测各类视频合成、编辑与生成模型。















