现有的自回归(AR)视觉生成模型在生成高分辨率图像时面临两大挑战:离散分词器的图像重建质量较差,以及生成1024px图像的训练成本过高。为了解决这些问题,麻省理工学院、英伟达和清华大学的研究人员提出了混合自回归变换器(HART)。HART 能够直接生成1024×1024像素的图像,并在图像生成质量上与扩散模型相媲美。
- 项目主页:https://hanlab.mit.edu/projects/hart
- GitHub:https://github.com/mit-han-lab/hart
- Demo:https://hart.mit.edu
主要功能和特点
HART的主要功能是生成高分辨率(1024×1024像素)的图像,而且生成的图像质量可以和目前最先进的图像生成模型相媲美。HART的主要特点包括:
- 混合标记器(Hybrid Tokenizer):HART使用了一种新颖的标记方法,将图像分解为两部分:一部分是离散的标记(代表图像的大致轮廓和结构),另一部分是连续的标记(代表那些离散标记无法捕捉的细微部分)。
- 高效率:相比于其他图像生成模型,HART在生成图像时更快,效率更高。它能够在保持图像质量的同时,显著减少计算量和延迟。
- 高质量的图像重建:HART在重建图像时,能够更好地保留图像的细节和质量,这得益于它的混合标记器设计。
工作原理
HART的工作原理可以分为以下几个步骤:
- 图像编码:首先,HART使用一个视觉编码器将输入的图像转换成连续的视觉标记。
- 混合标记化:然后,这些连续的视觉标记被量化成离散的标记和剩余的连续标记(也就是那些离散标记无法表示的部分)。
- 自回归变换器:离散标记通过一个可扩展分辨率的自回归变换器进行处理,这个变换器能够处理不同分辨率的图像。
- 残差扩散:连续标记则通过一个轻量级的残差扩散模块来学习,这个模块只有37M参数,但能够有效地捕捉图像的细节。
- 图像合成:最后,这两部分标记被结合起来,生成最终的高分辨率图像。
实验结果
- 图像质量:HART 在FID和CLIP评分方面优于最先进的扩散模型,生成的图像质量和细节保留都非常出色。
- 效率:HART 的生成速度和计算效率显著优于现有模型,适合大规模应用。
评论0