混合自回归变换器HART：高效生成高分辨率图像

图像模型1年前更新小马良

409 0

现有的自回归（AR）视觉生成模型在生成高分辨率图像时面临两大挑战：离散分词器的图像重建质量较差，以及生成1024px图像的训练成本过高。为了解决这些问题，麻省理工学院、英伟达和清华大学的研究人员提出了混合自回归变换器（HART）。HART 能够直接生成1024×1024像素的图像，并在图像生成质量上与扩散模型相媲美。

项目主页：https://hanlab.mit.edu/projects/hart
GitHub：https://github.com/mit-han-lab/hart
Demo：https://hart.mit.edu

主要功能和特点

HART的主要功能是生成高分辨率（1024×1024像素）的图像，而且生成的图像质量可以和目前最先进的图像生成模型相媲美。HART的主要特点包括：

混合标记器（Hybrid Tokenizer）：HART使用了一种新颖的标记方法，将图像分解为两部分：一部分是离散的标记（代表图像的大致轮廓和结构），另一部分是连续的标记（代表那些离散标记无法捕捉的细微部分）。
高效率：相比于其他图像生成模型，HART在生成图像时更快，效率更高。它能够在保持图像质量的同时，显著减少计算量和延迟。
高质量的图像重建：HART在重建图像时，能够更好地保留图像的细节和质量，这得益于它的混合标记器设计。

工作原理

HART的工作原理可以分为以下几个步骤：

图像编码：首先，HART使用一个视觉编码器将输入的图像转换成连续的视觉标记。
混合标记化：然后，这些连续的视觉标记被量化成离散的标记和剩余的连续标记（也就是那些离散标记无法表示的部分）。
自回归变换器：离散标记通过一个可扩展分辨率的自回归变换器进行处理，这个变换器能够处理不同分辨率的图像。
残差扩散：连续标记则通过一个轻量级的残差扩散模块来学习，这个模块只有37M参数，但能够有效地捕捉图像的细节。
图像合成：最后，这两部分标记被结合起来，生成最终的高分辨率图像。

实验结果

图像质量：HART 在FID和CLIP评分方面优于最先进的扩散模型，生成的图像质量和细节保留都非常出色。
效率：HART 的生成速度和计算效率显著优于现有模型，适合大规模应用。

图像模型 # HART # 混合自回归变换器

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

虚拟脱衣TryOffDiff：使用SD模型进行高保真服装重建的虚拟试穿

虚拟脱衣TryOffDiff：使用SD模型进行高保真服装重建的虚拟试穿

图像模型 # TryOffDiff # 虚拟脱衣 # 虚拟试穿

1年前

03590

腾讯混元发布 HunyuanImage-3.0：800亿参数开源原生多模态模型，实现“语义理解-图像生成”的深度融合

腾讯混元发布 HunyuanImage-3.0：800亿参数开源原生多模态模型，实现“语义理解-图像生成”的深度融合

图像模型 # HunyuanImage-3.0 # 腾讯混元

6个月前

07780

黑森林实验室正式发布图像编辑模型FLUX.1 Kontext [dev]

黑森林实验室正式发布图像编辑模型FLUX.1 Kontext [dev]

图像模型 # FLUX.1 Kontext [dev]# 图像编辑模型 # 黑森林实验室

9个月前

06350

图像编辑框架ByteEdit：提升基于扩散模型的生成性图像编辑任务的性能

图像编辑框架ByteEdit：提升基于扩散模型的生成性图像编辑任务的性能

图像模型 # ByteEdit # 图像编辑框架

1年前

01,1710

暂无评论

none

暂无评论...