一维（1D）标记化技术TiTok：用极少的标记（tokens）来表示和生成高分辨率图像

新技术2年前发布小马良

936 0

字节跳动和慕尼黑工业大学的研究人员推出新型图像表示方法TiTok，它通过一种新颖的一维（1D）标记化技术，用极少的标记（tokens）来表示和生成高分辨率图像。这种方法与传统的二维（2D）图像标记化方法不同，它不依赖于将图像固定映射到一个2D网格上，而是将图像转换成一系列一维的潜在表示，从而更有效地利用图像中的冗余信息。TiTok在不同分辨率下的图像生成任务中的表现，以及与现有技术的比较。通过实验，作者证明了TiTok在保持图像质量的同时，显著提高了生成速度，展示了其在图像生成领域的潜力。

项目主页：https://yucornetto.github.io/projects/titok.html

例如，你是一名游戏设计师，需要创建一个虚拟的城市环境。使用TiTok，你可以通过仅提供32个标记来描述整个城市景观，系统将根据这些标记重建或生成详细的城市图像，包括建筑、道路和植被等，大大加快了设计过程并提高了效率。

基于Transformer的一维令牌器（TiTok），它开创性地将图像转化为一维的潜在序列。TiTok构建出更为紧凑的潜在表征，相较于常规技术，实现了显著的效率与效果提升。举例来说，一幅标准的256×256像素RGB图像，经TiTok处理后可缩减至仅32个离散令牌，远少于之前方法所得的256乃至1024个令牌。TiTok虽精简，其性能却能比肩当前最优技术。在相同生成框架下，TiTok在ImageNet 256×256测试集上的表现以1.97的gFID值脱颖而出，较MaskGIT基线提升了4.21点。而当挑战升级至更高分辨率的ImageNet 512×512场景，TiTok不仅在性能上超越了顶尖扩散模型DiT-XL/2（gFID得分2.74对比3.04），还将所需令牌量缩减了64倍，使得生成速度加快了410倍。特别是，我们的最优变体不仅在gFID指标上以2.13分大幅领先DiT-XL/2的3.04分，同时保持了74倍的高速高质量样本生成能力。

主要功能：

图像重建：使用极少的标记来重建原始图像。
图像生成：在保持图像质量的同时，生成新的图像内容。

主要特点：

紧凑的潜在表示：TiTok可以将一个图像表示为仅有32个离散标记，相比之前的方法（如VQGAN）大大减少了所需的标记数量。
高效的生成过程：使用TiTok的模型在生成图像时速度更快，同时保持了较高的图像质量。

工作原理：

图像分割：首先将图像分割成小块（patches），然后与一些潜在标记拼接。
特征编码：使用视觉Transformer（ViT）编码器对这些小块和潜在标记进行编码，形成图像的潜在表示。
向量量化：将编码后的特征进行向量量化，形成离散的标记。
图像重建与生成：使用ViT解码器从量化后的潜在标记重构图像，或生成新的图像内容。

具体应用场景：

图像合成：在游戏和电影制作中，快速生成高质量的背景或场景图像。
数据增强：在机器学习中，通过生成新的图像样本来扩充训练数据集。
艺术创作：帮助艺术家通过极少的输入快速生成复杂的视觉作品。

新技术 # TiTok # 一维标记化

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型实时目标检测系统YOLOv9：通过创新的网络设计和梯度信息处理来提高目标检测的准确性和效率

新型实时目标检测系统YOLOv9：通过创新的网络设计和梯度信息处理来提高目标检测的准确性和效率

新技术 # YOLOv9 # 目标检测系统

2年前

05620

零样本多模态高保真3D人体纹理生成模型TexDreamer：快速地从文本或图像中生成高保真3D人体纹理

零样本多模态高保真3D人体纹理生成模型TexDreamer：快速地从文本或图像中生成高保真3D人体纹理

新技术 # 3D人体纹理生成模型 # TexDreamer

2年前

09630

基于大语言模型的框架GenAgent：用于自动生成复杂的工作流程，以构建协作式人工智能系统

基于大语言模型的框架GenAgent：用于自动生成复杂的工作流程，以构建协作式人工智能系统

新技术 # GenAgent

2年前

01,1050

基于区域描述的精确布局组合文生图方法RAG：将复杂的场景分解为单独的区域，并为每个区域提供相应的文本描述，然后生成一张精确布局的图片

基于区域描述的精确布局组合文生图方法RAG：将复杂的场景分解为单独的区域，并为每个区域提供相应的文本描述，然后生成一张精确布局的图片

新技术 # RAG # 区域提示

1年前

04050

暂无评论

none

暂无评论...