新加坡国立大学、西安电子科技大学和华中科技大学的研究人员推出分布式推理策略 DualParal,用于高效生成极端长视频。该策略针对基于DiT架构模型(Wan2.1mox ),这些模型在生成高质量视频方面表现出色,但在处理长视频时面临巨大的计算延迟和内存成本。DualParal 通过在多个 GPU 上并行化时间和模型层,显著提高了长视频生成的效率。
- 项目主页:https://dualparal-project.github.io/dualparal.github.io
- GitHub:https://github.com/DualParal-Project/DualParal
例如,使用 DualParal,可以在 8 个 RTX 4090 GPU 上高效生成 1025 帧的视频,相比现有方法,延迟降低了 6.54 倍,内存成本降低了 1.48 倍。

主要功能
- 高效长视频生成:能够在多个 GPU 上并行处理视频帧和模型层,显著降低生成长视频的延迟和内存成本。
- 无限长度视频生成:通过队列机制,可以持续生成任意长度的视频,适用于需要长时间视频的应用场景。
- 视频质量保持:在提高效率的同时,保持了视频的质量,包括主体一致性、背景一致性、运动平滑性等。
主要特点
- 双并行策略:结合了序列并行(sequence parallelism)和流水线并行(pipeline parallelism),在不牺牲视频质量的前提下,最大化计算效率和内存使用效率。
- 块级去噪方案:通过将视频分割成多个时间块,并为每个块分配不同的噪声水平,解决了序列并行和流水线并行之间的固有冲突。
- 特征缓存:通过在每个 GPU 上缓存和重用前一个块的特征,减少了 GPU 之间的通信和冗余计算。
- 协调噪声初始化:通过共享初始噪声模式,确保全局一致性,而无需额外的资源成本。
工作原理
- 队列和设备流水线:DualParal 将视频帧分割成多个时间块,并将这些块组织在一个先进先出(FIFO)队列中。每个块在队列中具有不同的噪声水平,从尾部到头部逐渐降低。在每个扩散步骤中,队列中的块被反向(从尾部到头部)送入设备流水线进行处理。
- 块级去噪:每个 GPU 处理特定的视频块和模型层子集,并将去噪后的输出异步传递给下一个 GPU。这种块级去噪方案允许在不同模型段之间异步处理,从而避免了序列并行和流水线并行之间的冲突。
- 特征缓存和噪声初始化:为了进一步优化性能,DualParal 在每个 GPU 上实现了特征缓存,以存储和重用前一个块的特征,减少 GPU 之间的通信和冗余计算。此外,通过协调噪声初始化策略,确保全局一致性,而无需额外的资源成本。
测试结果
- 效率提升:在 8 个 RTX 4090 GPU 上,DualParal 在生成 1025 帧视频时,相比现有方法,延迟降低了 6.54 倍,内存成本降低了 1.48 倍。
- 视频质量:根据 VBench 指标,DualParal 在主体一致性、背景一致性、运动平滑性等方面均优于其他分布式方法,如 DeepSpeed-Ulysses、Video-Infinity 和 FIFO。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















