字节跳动和慕尼黑工业大学的研究人员推出新型图像表示方法TiTok,它通过一种新颖的一维(1D)标记化技术,用极少的标记(tokens)来表示和生成高分辨率图像。这种方法与传统的二维(2D)图像标记化方法不同,它不依赖于将图像固定映射到一个2D网格上,而是将图像转换成一系列一维的潜在表示,从而更有效地利用图像中的冗余信息。TiTok在不同分辨率下的图像生成任务中的表现,以及与现有技术的比较。通过实验,作者证明了TiTok在保持图像质量的同时,显著提高了生成速度,展示了其在图像生成领域的潜力。
例如,你是一名游戏设计师,需要创建一个虚拟的城市环境。使用TiTok,你可以通过仅提供32个标记来描述整个城市景观,系统将根据这些标记重建或生成详细的城市图像,包括建筑、道路和植被等,大大加快了设计过程并提高了效率。
基于Transformer的一维令牌器(TiTok),它开创性地将图像转化为一维的潜在序列。TiTok构建出更为紧凑的潜在表征,相较于常规技术,实现了显著的效率与效果提升。举例来说,一幅标准的256×256像素RGB图像,经TiTok处理后可缩减至仅32个离散令牌,远少于之前方法所得的256乃至1024个令牌。TiTok虽精简,其性能却能比肩当前最优技术。在相同生成框架下,TiTok在ImageNet 256×256测试集上的表现以1.97的gFID值脱颖而出,较MaskGIT基线提升了4.21点。而当挑战升级至更高分辨率的ImageNet 512×512场景,TiTok不仅在性能上超越了顶尖扩散模型DiT-XL/2(gFID得分2.74对比3.04),还将所需令牌量缩减了64倍,使得生成速度加快了410倍。特别是,我们的最优变体不仅在gFID指标上以2.13分大幅领先DiT-XL/2的3.04分,同时保持了74倍的高速高质量样本生成能力。
主要功能:
- 图像重建:使用极少的标记来重建原始图像。
- 图像生成:在保持图像质量的同时,生成新的图像内容。
主要特点:
- 紧凑的潜在表示:TiTok可以将一个图像表示为仅有32个离散标记,相比之前的方法(如VQGAN)大大减少了所需的标记数量。
- 高效的生成过程:使用TiTok的模型在生成图像时速度更快,同时保持了较高的图像质量。
工作原理:
- 图像分割:首先将图像分割成小块(patches),然后与一些潜在标记拼接。
- 特征编码:使用视觉Transformer(ViT)编码器对这些小块和潜在标记进行编码,形成图像的潜在表示。
- 向量量化:将编码后的特征进行向量量化,形成离散的标记。
- 图像重建与生成:使用ViT解码器从量化后的潜在标记重构图像,或生成新的图像内容。
具体应用场景:
- 图像合成:在游戏和电影制作中,快速生成高质量的背景或场景图像。
- 数据增强:在机器学习中,通过生成新的图像样本来扩充训练数据集。
- 艺术创作:帮助艺术家通过极少的输入快速生成复杂的视觉作品。
评论0