新型框架ZipAR:用于加速自回归(AR)视觉生成模型的图像生成过程

浙江大学、上海人工智能实验室和阿德莱德大学的研究人员推出新型框架ZipAR,它用于加速自回归(Auto-Regressive,AR)视觉生成模型的图像生成过程。ZipAR的核心思想是利用图像的空间局部性,即图像中空间上相邻的区域之间的相互依赖性远大于空间上距离较远的区域,来实现并行解码,从而提高生成效率。

例如,我们想要生成一张“夜晚东京繁华的市中心街道,有霓虹招牌、人行道和高楼大厦”的图片。在使用传统的自回归模型时,可能需要8190步(即模型的8190次前向传播)来生成这张图片。而使用ZipAR框架后,可以将这一步骤减少到713步,减少了91%的前向传播步骤,显著提高了生成速度。

主要功能:

ZipAR的主要功能是减少生成高分辨率图像或视频所需的前向传播次数,从而提高自回归视觉生成模型的生成速度。

主要特点:

  1. 训练无关性:ZipAR是一个无需额外训练的即插即用(plug-and-play)并行解码框架。
  2. 空间局部性:ZipAR利用图像的空间局部性,允许在单次前向传播中并行解码多个空间上相邻的令牌(tokens)。
  3. 显著减少前向传播次数:实验表明,ZipAR能够显著减少模型前向传播的次数,最高可达91%。

工作原理:

ZipAR通过定义一个局部窗口大小来确定哪些令牌是空间上相邻的。在给定行中生成的令牌数量超过窗口大小时,就可以开始并行解码下一行的令牌。这种方法允许ZipAR在不需要等待当前行完全解码的情况下开始下一行的解码,从而实现并行处理。ZipAR的所有并行生成的令牌都使用原始模型头生成,无需进一步评估或更新。

具体应用场景:

  1. 图像生成:在需要快速生成大量图像的应用中,如在线广告、社交媒体内容创建等,ZipAR可以大幅缩短生成时间。
  2. 视频生成:对于需要生成高分辨率视频的应用,ZipAR可以提高视频帧的生成效率。
  3. 虚拟现实和游戏:在虚拟现实或游戏中需要实时生成环境或背景时,ZipAR可以提供更快的图像生成速度。
  4. 艺术创作:艺术家和设计师可以使用ZipAR快速生成图像草图或概念图。
  5. 数据增强:在机器学习中,ZipAR可以用于快速生成训练数据,加速模型训练过程。

ZipAR的提出,为自回归视觉生成模型的加速提供了一种有效的解决方案,特别适用于对生成速度有较高要求的场景。

0

评论0

没有账号?注册  忘记密码?