新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok,它能够将二维图像重新采样为长度可变的一维离散标记(token)序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂性,从而实现高效的图像表示和生成。

例如,对于简单图像(如单一物体),FlexTok 可以用很少的标记(如8个)进行有效表示;而对于复杂场景(如多人物、多细节的图像),则可以使用更多的标记(如256个)来捕捉细节。

新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列

主要功能

FlexTok 的主要功能包括:

  1. 图像压缩与表示:将二维图像转换为一维标记序列,实现高效的图像压缩。
  2. 自回归图像生成:支持基于条件(如类别标签或文本描述)的图像生成任务。
  3. 灵活的标记长度:根据图像复杂性动态调整标记数量,从1个标记到256个标记。
  4. 语义和几何信息的层次化表示:通过标记序列的顺序,从粗到细地描述图像内容。
新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列

主要特点

FlexTok 的主要特点如下:

  1. 灵活的标记长度:与传统固定长度的标记方法(如 TiTok)不同,FlexTok 可以根据图像的复杂性动态调整标记数量。
  2. 层次化表示:早期标记捕捉图像的高级语义和几何信息,后续标记逐步添加细节。
  3. 高效的解码器:使用基于修正流(rectified flow)的解码器,能够从少量标记中重建出高质量的图像。
  4. 适应性强:适用于多种图像生成任务,包括类别条件生成和文本条件生成。

工作原理

FlexTok 的工作原理可以分为以下几个关键步骤:

  1. 编码阶段
    • 使用一个基于 Vision Transformer(ViT)的编码器,将二维图像分割成小块(patches),并将其映射到一维标记序列。
    • 使用有限标量量化(FSQ)技术将连续的标记离散化。
    • 通过嵌套丢弃(nested dropout)和因果注意力掩码(causal attention masks)引入标记的顺序性,使标记从粗到细地表示图像内容。
  2. 解码阶段
    • 使用修正流模型作为解码器,将离散标记序列解码为图像。
    • 修正流模型通过预测噪声流来逐步重建图像,能够在极端压缩率下保持高质量的重建效果。
  3. 自回归生成
    • 训练一个自回归 Transformer 模型,根据条件(如类别标签或文本描述)逐步生成标记序列。
    • 生成的标记序列通过解码器重建为最终的图像。

应用场景

FlexTok 可以应用于以下具体场景:

  1. 图像生成
    • 类别条件生成:根据给定的类别标签生成图像。例如,生成“金毛猎犬”或“火山”的图像。
    • 文本条件生成:根据详细的文本描述生成图像。例如,根据“一只蓝色保时捷356停在黄色砖墙前”的描述生成图像。
  2. 图像压缩
    • 通过将图像编码为少量标记,实现高效的图像压缩,适用于存储和传输。
  3. 多模态任务
    • 结合文本和其他模态信息,生成与文本描述相符的图像,支持多模态预训练和生成任务。
  4. 视频生成
    • FlexTok 的灵活标记长度和层次化表示方法可以扩展到视频生成任务,通过逐帧生成标记序列来构建视频内容。

总结

FlexTok 通过灵活的标记长度和层次化表示,为图像生成和压缩提供了一种高效且适应性强的解决方案。它不仅能够根据图像复杂性动态调整标记数量,还能通过修正流解码器实现高质量的图像重建。FlexTok 在自回归图像生成任务中表现出色,适用于多种应用场景,包括图像生成、压缩和多模态任务。

© 版权声明

相关文章

暂无评论

none
暂无评论...