加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍

加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加速最先进的(SoTA)开源DiT架构视频生成模型的推理速度。它通过引入 一致性蒸馏(Consistency Distillation, CD) 技术,大幅减少了生成高质量视频所需的时间。目前,FastVideo 已经支持了 MochiHunyuan 两个流行的DiT模型,并在多个基准测试中表现出色。

主要特性

1. 显著提升推理速度

  • Hunyuan Video:与原始版本相比,FastVideo 将扩散时间从 232 秒减少到 27 秒,端到端时间从 267 秒减少到 62 秒。
  • Mochi:与原始版本相比,FastMochi 将扩散时间从 63 秒减少到 26 秒,端到端时间从 123 秒减少到 81 秒。

2. 一致性蒸馏(CD)技术

  • CD 最初是为了加速图像扩散模型而提出的,FastVideo 将其应用于视频扩散变压器(DiT),并取得了显著的效果。CD 通过将大模型的知识传递给更小、更快的模型,从而实现了高效的推理加速。

3. 首个开源的视频 DiT 蒸馏方案

  • FastVideo 提供了基于 Pseudo Consistency Modeling (PCM) 的开源蒸馏方案,用户可以根据该方案蒸馏自己的视频扩散模型。

4. 支持多种优化技术

  • FSDP(Fully Sharded Data Parallelism):支持分布式训练,实现接近线性扩展至 64 个 GPU。
  • 序列并行:优化模型的前向和反向传播过程,减少内存占用。
  • 选择性激活检查点:进一步优化内存使用,提升训练效率。
  • LoRA(Low-Rank Adaptation):支持轻量级微调,减少显存占用。

5. 内存高效的微调

  • 支持 LoRA、预计算潜在变量和预计算文本嵌入,使得微调过程更加高效,尤其是在资源有限的情况下。

6. 可扩展性和灵活性

  • FastVideo 是一个轻量级框架,易于集成和扩展。它不仅支持现有的 SoTA 模型(如 Mochi 和 Hunyuan),还可以用于其他视频扩散模型的加速。

7.模型

  • FastMochi:FastMochi 是一个加速版的 Mochi 模型。它可以在 8 个扩散步骤内生成高质量视频,相比原始 Mochi 的 64 步,速度提升了约 8 倍。
  • FastHunyuan:FastHunyuan 是一个加速版的 HunyuanVideo 模型。它可以在 6 个扩散步骤内生成高质量视频,相比原始 HunyuanVideo 的 50 步,速度提升了约 8 倍。

未来发展方向

FastVideo 目前仍处于高度实验性阶段,开发团队将继续优化模型性能,并计划引入更多功能,包括但不限于:

  • 支持更多的视频扩散模型。
  • 进一步优化推理速度和内存使用。
  • 提供更多的训练和微调选项。
0

评论0

没有账号?注册  忘记密码?