基于Wan2.1模型的分布式推理策略 DualParal：用于高效生成极端长视频

291 0

新加坡国立大学、西安电子科技大学和华中科技大学的研究人员推出分布式推理策略 DualParal，用于高效生成极端长视频。该策略针对基于DiT架构模型（Wan2.1mox ），这些模型在生成高质量视频方面表现出色，但在处理长视频时面临巨大的计算延迟和内存成本。DualParal 通过在多个 GPU 上并行化时间和模型层，显著提高了长视频生成的效率。

项目主页：https://dualparal-project.github.io/dualparal.github.io
GitHub：https://github.com/DualParal-Project/DualParal

例如，使用 DualParal，可以在 8 个 RTX 4090 GPU 上高效生成 1025 帧的视频，相比现有方法，延迟降低了 6.54 倍，内存成本降低了 1.48 倍。

主要功能

高效长视频生成：能够在多个 GPU 上并行处理视频帧和模型层，显著降低生成长视频的延迟和内存成本。
无限长度视频生成：通过队列机制，可以持续生成任意长度的视频，适用于需要长时间视频的应用场景。
视频质量保持：在提高效率的同时，保持了视频的质量，包括主体一致性、背景一致性、运动平滑性等。

主要特点

双并行策略：结合了序列并行（sequence parallelism）和流水线并行（pipeline parallelism），在不牺牲视频质量的前提下，最大化计算效率和内存使用效率。
块级去噪方案：通过将视频分割成多个时间块，并为每个块分配不同的噪声水平，解决了序列并行和流水线并行之间的固有冲突。
特征缓存：通过在每个 GPU 上缓存和重用前一个块的特征，减少了 GPU 之间的通信和冗余计算。
协调噪声初始化：通过共享初始噪声模式，确保全局一致性，而无需额外的资源成本。

工作原理

队列和设备流水线：DualParal 将视频帧分割成多个时间块，并将这些块组织在一个先进先出（FIFO）队列中。每个块在队列中具有不同的噪声水平，从尾部到头部逐渐降低。在每个扩散步骤中，队列中的块被反向（从尾部到头部）送入设备流水线进行处理。
块级去噪：每个 GPU 处理特定的视频块和模型层子集，并将去噪后的输出异步传递给下一个 GPU。这种块级去噪方案允许在不同模型段之间异步处理，从而避免了序列并行和流水线并行之间的冲突。
特征缓存和噪声初始化：为了进一步优化性能，DualParal 在每个 GPU 上实现了特征缓存，以存储和重用前一个块的特征，减少 GPU 之间的通信和冗余计算。此外，通过协调噪声初始化策略，确保全局一致性，而无需额外的资源成本。

测试结果

效率提升：在 8 个 RTX 4090 GPU 上，DualParal 在生成 1025 帧视频时，相比现有方法，延迟降低了 6.54 倍，内存成本降低了 1.48 倍。
视频质量：根据 VBench 指标，DualParal 在主体一致性、背景一致性、运动平滑性等方面均优于其他分布式方法，如 DeepSpeed-Ulysses、Video-Infinity 和 FIFO。