新型框架ZipAR：用于加速自回归（AR）视觉生成模型的图像生成过程

新技术4个月前发布小马良

138 0

浙江大学、上海人工智能实验室和阿德莱德大学的研究人员推出新型框架ZipAR，它用于加速自回归（Auto-Regressive，AR）视觉生成模型的图像生成过程。ZipAR的核心思想是利用图像的空间局部性，即图像中空间上相邻的区域之间的相互依赖性远大于空间上距离较远的区域，来实现并行解码，从而提高生成效率。

GitHub：https://github.com/ThisisBillhe/ZipAR

例如，我们想要生成一张“夜晚东京繁华的市中心街道，有霓虹招牌、人行道和高楼大厦”的图片。在使用传统的自回归模型时，可能需要8190步（即模型的8190次前向传播）来生成这张图片。而使用ZipAR框架后，可以将这一步骤减少到713步，减少了91%的前向传播步骤，显著提高了生成速度。

新型框架ZipAR：用于加速自回归（AR）视觉生成模型的图像生成过程

主要功能：

ZipAR的主要功能是减少生成高分辨率图像或视频所需的前向传播次数，从而提高自回归视觉生成模型的生成速度。

主要特点：

训练无关性：ZipAR是一个无需额外训练的即插即用（plug-and-play）并行解码框架。
空间局部性：ZipAR利用图像的空间局部性，允许在单次前向传播中并行解码多个空间上相邻的令牌（tokens）。
显著减少前向传播次数：实验表明，ZipAR能够显著减少模型前向传播的次数，最高可达91%。

工作原理：

ZipAR通过定义一个局部窗口大小来确定哪些令牌是空间上相邻的。在给定行中生成的令牌数量超过窗口大小时，就可以开始并行解码下一行的令牌。这种方法允许ZipAR在不需要等待当前行完全解码的情况下开始下一行的解码，从而实现并行处理。ZipAR的所有并行生成的令牌都使用原始模型头生成，无需进一步评估或更新。

具体应用场景：

图像生成：在需要快速生成大量图像的应用中，如在线广告、社交媒体内容创建等，ZipAR可以大幅缩短生成时间。
视频生成：对于需要生成高分辨率视频的应用，ZipAR可以提高视频帧的生成效率。
虚拟现实和游戏：在虚拟现实或游戏中需要实时生成环境或背景时，ZipAR可以提供更快的图像生成速度。
艺术创作：艺术家和设计师可以使用ZipAR快速生成图像草图或概念图。
数据增强：在机器学习中，ZipAR可以用于快速生成训练数据，加速模型训练过程。

ZipAR的提出，为自回归视觉生成模型的加速提供了一种有效的解决方案，特别适用于对生成速度有较高要求的场景。

新技术 # ZipAR # 自回归视觉生成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

统一Transformer模型Show-o：同时处理多模态理解（如图像和文本）和生成任务

统一Transformer模型Show-o：同时处理多模态理解（如图像和文本）和生成任务

新技术 # Show-o # Transformer模型

7个月前

04410

MagicDriveDiT：提高视频合成的效率和可控性，以更好地服务于自动驾驶应用

MagicDriveDiT：提高视频合成的效率和可控性，以更好地服务于自动驾驶应用

新技术 # MagicDriveDiT # 自动驾驶

4个月前

01970

StyleCineGAN：从单张风景静图生成循环播放的动态图像

StyleCineGAN：从单张风景静图生成循环播放的动态图像

新技术 # StyleCineGAN # 动态图像

1年前

03590

视觉概念生成工具 Piece it Together（PiT）：将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中，并同时生成缺失的部分，以生成一个完整且合理的概念

视觉概念生成工具 Piece it Together（PiT）：将用户提供的部分视觉组件无缝集成到一个连贯的整体概念中，并同时生成缺失的部分，以生成一个完整且合理的概念

新技术 # PiT # 视觉概念生成

2周前

0360

暂无评论

none

暂无评论...