腾讯发布一种在 MM-DiT 架构下无需额外训练的多提示长视频生成方法DiTCtrl

324 0

随着视频生成模型的发展，基于DiT架构如 Sora 和 MM-DiT 在单提示视频生成任务中取得了显著进展。然而，这些模型在处理多个顺序提示时面临诸多挑战，难以生成连贯且自然过渡的场景。具体来说：

严格的训练数据要求：多提示视频生成需要大量标注的数据，这增加了训练成本和复杂性。
提示跟随能力弱：现有模型在处理多个提示时，往往无法准确跟随每个提示的变化，导致生成的视频缺乏一致性。
过渡不自然：不同提示之间的过渡通常不够平滑，影响了视频的整体质量。

为了解决这些问题，香港中文大学 MMLab、大湾大学 GVC 实验室、腾讯 PCG ARC 实验室和腾讯 AI 实验室的研究人员提出了 DiTCtrl，一种在 MM-DiT 架构下无需额外训练的多提示视频生成方法。该方法的核心思想是将多提示视频生成任务视为具有平滑过渡的时间视频编辑，通过注意力共享实现跨不同提示的精确语义控制。这种方法首次在MM-DiT架构下实现，能够处理复杂的动作和平滑的场景转换，生成更长的视频序列。

项目主页：https://onevfall.github.io/project_page/ditctrl
GitHub：https://github.com/TencentARC/DiTCtrl

例如，我们有两个提示：“一个运动员在海浪上滑翔”和“同一个运动员在沙漠沙丘上滑行”。使用DiTCtrl，我们可以生成一个视频，展示运动员从一个场景平滑过渡到另一个场景，同时保持动作的连贯性和场景的无缝转换。这种能力使得DiTCtrl非常适合用于电影制作、游戏开发和虚拟现实等领域，其中需要创建动态和引人入胜的视频内容。

主要功能和特点：

无需额外训练：DiTCtrl是一种无需额外训练的多提示视频生成方法，它可以在预训练的MM-DiT视频生成模型下工作。
平滑过渡：DiTCtrl能够生成具有平滑过渡和一致对象运动的多提示视频，即使在面对多个顺序提示时也能做到。
注意力控制：通过分析MM-DiT的注意力机制，DiTCtrl利用3D全注意力模块实现类似UNet扩散模型中的跨/自注意力块的功能，从而在不同提示间进行精确的语义控制。
KV共享机制：DiTCtrl引入了一种键值（KV）共享方法，以保持关键对象的语义一致性。
潜在混合策略：为了在不同语义段之间实现平滑过渡，DiTCtrl采用了潜在混合策略。

关键观察与技术细节

注意力机制分析

研究人员对 MM-DiT 的注意力机制进行了深入分析，发现其 3D 全注意力机制与类似 UNet 的扩散模型中的交叉/自注意力块行为相似。具体来说，MM-DiT 中的注意力矩阵可以分解为四个不同的区域：

文本到文本（Text-to-Text）
视频到视频（Video-to-Video）
文本到视频（Text-to-Video）
视频到文本（Video-to-Text）

以提示“一只猫看着一只黑老鼠”为例，研究人员观察到每个文本标记在分析文本到视频和视频到文本区域的平均注意力值时表现出显著的激活模式。这表明 MM-DiT 的注意力机制不仅能够捕捉文本和视频之间的关联，还能在时间维度上建模视频内容的变化。

掩码引导的键值共享策略

为了实现多提示视频生成，DiTCtrl 引入了 掩码引导的键值共享策略。具体来说，在视频合成的去噪过程中，研究人员将全注意力机制转换为掩码引导的键值共享策略，从源视频 ( V_{i-1} ) 中查询视频内容，并在修改后的目标提示 ( P_i ) 下合成内容一致的视频。这一策略确保了不同提示之间的平滑过渡和一致的对象运动。