基于Wan2.1模型的分布式推理策略 DualParal:用于高效生成极端长视频

新技术6个月前发布 小马良
259 0

新加坡国立大学、西安电子科技大学和华中科技大学的研究人员推出分布式推理策略 DualParal,用于高效生成极端长视频。该策略针对基于DiT架构模型(Wan2.1mox ),这些模型在生成高质量视频方面表现出色,但在处理长视频时面临巨大的计算延迟和内存成本。DualParal 通过在多个 GPU 上并行化时间和模型层,显著提高了长视频生成的效率。

例如,使用 DualParal,可以在 8 个 RTX 4090 GPU 上高效生成 1025 帧的视频,相比现有方法,延迟降低了 6.54 倍,内存成本降低了 1.48 倍。

主要功能

  • 高效长视频生成:能够在多个 GPU 上并行处理视频帧和模型层,显著降低生成长视频的延迟和内存成本。
  • 无限长度视频生成:通过队列机制,可以持续生成任意长度的视频,适用于需要长时间视频的应用场景。
  • 视频质量保持:在提高效率的同时,保持了视频的质量,包括主体一致性、背景一致性、运动平滑性等。

主要特点

  • 双并行策略:结合了序列并行(sequence parallelism)和流水线并行(pipeline parallelism),在不牺牲视频质量的前提下,最大化计算效率和内存使用效率。
  • 块级去噪方案:通过将视频分割成多个时间块,并为每个块分配不同的噪声水平,解决了序列并行和流水线并行之间的固有冲突。
  • 特征缓存:通过在每个 GPU 上缓存和重用前一个块的特征,减少了 GPU 之间的通信和冗余计算。
  • 协调噪声初始化:通过共享初始噪声模式,确保全局一致性,而无需额外的资源成本。

工作原理

  • 队列和设备流水线:DualParal 将视频帧分割成多个时间块,并将这些块组织在一个先进先出(FIFO)队列中。每个块在队列中具有不同的噪声水平,从尾部到头部逐渐降低。在每个扩散步骤中,队列中的块被反向(从尾部到头部)送入设备流水线进行处理。
  • 块级去噪:每个 GPU 处理特定的视频块和模型层子集,并将去噪后的输出异步传递给下一个 GPU。这种块级去噪方案允许在不同模型段之间异步处理,从而避免了序列并行和流水线并行之间的冲突。
  • 特征缓存和噪声初始化:为了进一步优化性能,DualParal 在每个 GPU 上实现了特征缓存,以存储和重用前一个块的特征,减少 GPU 之间的通信和冗余计算。此外,通过协调噪声初始化策略,确保全局一致性,而无需额外的资源成本。

测试结果

  • 效率提升:在 8 个 RTX 4090 GPU 上,DualParal 在生成 1025 帧视频时,相比现有方法,延迟降低了 6.54 倍,内存成本降低了 1.48 倍。
  • 视频质量:根据 VBench 指标,DualParal 在主体一致性、背景一致性、运动平滑性等方面均优于其他分布式方法,如 DeepSpeed-Ulysses、Video-Infinity 和 FIFO。
© 版权声明

相关文章

暂无评论

none
暂无评论...