高通AI研究院推出一个为移动设备优化的视频生成模型MobileVD

高通AI研究院推出了一个为移动设备优化的视频生成模型Mobile Video Diffusion(MobileVD),该模型的目标是在保持生成视频的质量和控制力的同时,显著降低计算需求,使得在移动设备上使用视频扩散技术成为可能。MobileVD通过优化Stable Video Diffusion(SVD)中的时空UNet,并引入了新的剪枝技术,显著减少了内存和计算需求。

例如,我们想要在手机上生成一个短视频,内容是一个在公园里跑步的人。使用MobileVD,我们可以从一个静态图片开始,通过迭代去噪过程,生成一系列连贯的帧,最终形成一个视频。这个过程不仅需要考虑到视频中的人物动作,还要处理背景、光照变化等,以确保视频的逼真度和连贯性。

主要功能:

  1. 视频生成:在移动设备上生成高质量的视频内容。
  2. 计算优化:通过模型优化,显著降低了视频生成的计算和内存需求。
  3. 实时性:能够在较短的时间内完成视频的生成,适合实时应用。

主要特点:

  1. 高效率:MobileVD比SVD快523倍,计算量从1817.2 TFLOPs降低到4.34 TFLOPs。
  2. 质量保持:尽管计算量减少,但视频质量(以FVD衡量)仅略有下降,从171降低到149。
  3. 快速部署:能够在智能手机上快速生成视频,如在Xiaomi 14 Pro上1.7秒内生成一个14帧的512×256像素视频。

工作原理:

MobileVD的核心是优化SVD模型,通过以下方式实现:

  1. 降低分辨率:减少UNet输入的空间分辨率,以适应移动设备的内存限制。
  2. 多尺度表示:在UNet中引入额外的时空下采样和上采样操作,以减少内存和计算成本。
  3. 通道压缩:通过通道漏斗(channel funneling)技术减少模型参数。
  4. 剪枝技术:通过学习性剪枝技术减少UNet中的时空块数量。
  5. 单步去噪:采用对抗性微调,将去噪步骤减少到单步,加速视频生成。
0

评论0

没有账号?注册  忘记密码?