MotionShop：用于视频扩散模型中的零样本（Zero-Shot）运动转移方法，通过混合分数引导（MSG）实现

156 0

近年来，扩散模型在图像和视频生成领域取得了显著进展，但在运动迁移任务中，如何将一个视频中的运动模式迁移到另一个视频中，同时保持内容的完整性，仍然是一个具有挑战性的问题。传统的运动迁移方法通常依赖于复杂的模型结构或额外的训练数据，这限制了它们的灵活性和可扩展性。

MotionShop：用于视频扩散模型中的零样本（Zero-Shot）运动转移方法，通过混合分数引导（MSG）实现

为了解决这一问题，弗吉尼亚理工大学的研究人员提出了 MotionShop，这是首个基于 混合分数引导（Mixture of Score Guidance, MSG） 的扩散Transformer运动迁移方法。MotionShop 的核心思想是通过重新表述条件分数，将扩散模型中的运动分数和内容分数分离，从而实现高效的运动迁移。该方法可以直接应用于预训练的视频扩散模型，而无需额外的训练或微调，展示了强大的零样本运动迁移能力。

项目主页：https://motionshop-diffusion.github.io
GitHub：https://github.com/gemlab-vt/motionshop

例如，我们有一段视频显示一辆汽车在海滩上行驶，我们想要将这个运动转移到一架飞机上。使用MotionShop，我们可以将飞机的运动轨迹与汽车的运动轨迹相结合，生成一段新的视频，其中飞机沿着海滩低空飞行，同时保持与汽车相同的运动动态和环境互动。

核心技术与创新点

1. 混合分数引导（MSG）

MotionShop 的关键理论贡献在于引入了 混合分数引导（MSG），这是一种重新表述条件分数的方法，能够将扩散模型中的运动分数和内容分数分解开来。具体来说，MSG 将运动迁移任务表述为潜在能量的混合，其中：

运动分数：负责捕捉源视频中的运动模式，如物体的移动、旋转等。
内容分数：负责保持目标视频中的场景组成和内容不变。

通过这种方式，MSG 能够自然地保留场景的组成，同时实现创造性的场景变换，确保迁移的运动模式完整且连贯。

2. 潜在能量的混合

MSG 的核心在于将运动迁移任务视为潜在能量的混合。在扩散模型中，潜在能量表示了视频帧在不同时间步上的分布。通过将运动分数和内容分数结合，MSG 可以在不改变目标视频内容的前提下，将源视频中的运动模式迁移到目标视频中。这种混合方式不仅能够处理单对象的运动迁移，还能应对多对象和跨对象的复杂运动迁移任务。

3. 无需额外训练或微调

MotionShop 的另一个重要特点是它可以直接应用于预训练的视频扩散模型，而无需进行额外的训练或微调。这意味着研究人员可以利用现有的大规模视频扩散模型，快速实现运动迁移任务，大大提高了模型的灵活性和可扩展性。此外，由于 MSG 是一种通用的采样策略，它可以与其他扩散模型相结合，进一步扩展其应用范围。

4. 广泛的实验验证

为了验证 MSG 的有效性，研究人员进行了广泛的实验，测试了 MotionShop 在多种场景下的表现。实验结果表明，MotionShop 成功处理了以下几类运动迁移任务：

单对象运动迁移：将一个对象的运动模式迁移到另一个对象上，同时保持目标对象的内容不变。
多对象运动迁移：将多个对象的运动模式同时迁移到目标场景中，确保各个对象的运动协调一致。
跨对象运动迁移：将一个对象的运动模式迁移到完全不同类型的对象上，展示了 MSG 的泛化能力。
复杂相机运动迁移：将源视频中的复杂相机运动迁移到目标视频中，确保整个场景的视角变化一致。

5. MotionBench：首个运动迁移数据集

为了推动运动迁移领域的研究，研究人员还引入了 MotionBench，这是首个专门用于运动迁移的数据集。MotionBench 包含200个源视频和1000个迁移运动，涵盖了单对象、多对象迁移以及复杂相机运动等多种场景。该数据集为研究人员提供了一个标准的基准，用于评估和比较不同的运动迁移方法。