新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

图像模型12个月前发布小马良

459 0

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok，它能够将二维图像重新采样为长度可变的一维离散标记（token）序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂性，从而实现高效的图像表示和生成。

项目主页：https://flextok.epfl.ch
GitHub：https://github.com/apple/ml-flextok
Demo：https://huggingface.co/spaces/EPFL-VILAB/FlexTok

例如，对于简单图像（如单一物体），FlexTok 可以用很少的标记（如8个）进行有效表示；而对于复杂场景（如多人物、多细节的图像），则可以使用更多的标记（如256个）来捕捉细节。

主要功能

FlexTok 的主要功能包括：

图像压缩与表示：将二维图像转换为一维标记序列，实现高效的图像压缩。
自回归图像生成：支持基于条件（如类别标签或文本描述）的图像生成任务。
灵活的标记长度：根据图像复杂性动态调整标记数量，从1个标记到256个标记。
语义和几何信息的层次化表示：通过标记序列的顺序，从粗到细地描述图像内容。

主要特点

FlexTok 的主要特点如下：

灵活的标记长度：与传统固定长度的标记方法（如 TiTok）不同，FlexTok 可以根据图像的复杂性动态调整标记数量。
层次化表示：早期标记捕捉图像的高级语义和几何信息，后续标记逐步添加细节。
高效的解码器：使用基于修正流（rectified flow）的解码器，能够从少量标记中重建出高质量的图像。
适应性强：适用于多种图像生成任务，包括类别条件生成和文本条件生成。

工作原理

FlexTok 的工作原理可以分为以下几个关键步骤：

编码阶段：
- 使用一个基于 Vision Transformer（ViT）的编码器，将二维图像分割成小块（patches），并将其映射到一维标记序列。
- 使用有限标量量化（FSQ）技术将连续的标记离散化。
- 通过嵌套丢弃（nested dropout）和因果注意力掩码（causal attention masks）引入标记的顺序性，使标记从粗到细地表示图像内容。
解码阶段：
- 使用修正流模型作为解码器，将离散标记序列解码为图像。
- 修正流模型通过预测噪声流来逐步重建图像，能够在极端压缩率下保持高质量的重建效果。
自回归生成：
- 训练一个自回归 Transformer 模型，根据条件（如类别标签或文本描述）逐步生成标记序列。
- 生成的标记序列通过解码器重建为最终的图像。

应用场景

FlexTok 可以应用于以下具体场景：

图像生成：
- 类别条件生成：根据给定的类别标签生成图像。例如，生成“金毛猎犬”或“火山”的图像。
- 文本条件生成：根据详细的文本描述生成图像。例如，根据“一只蓝色保时捷356停在黄色砖墙前”的描述生成图像。
图像压缩：
- 通过将图像编码为少量标记，实现高效的图像压缩，适用于存储和传输。
多模态任务：
- 结合文本和其他模态信息，生成与文本描述相符的图像，支持多模态预训练和生成任务。
视频生成：
- FlexTok 的灵活标记长度和层次化表示方法可以扩展到视频生成任务，通过逐帧生成标记序列来构建视频内容。

总结

FlexTok 通过灵活的标记长度和层次化表示，为图像生成和压缩提供了一种高效且适应性强的解决方案。它不仅能够根据图像复杂性动态调整标记数量，还能通过修正流解码器实现高质量的图像重建。FlexTok 在自回归图像生成任务中表现出色，适用于多种应用场景，包括图像生成、压缩和多模态任务。

图像模型 # FlexTok # 图像编码器

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

图像修复模型BrushNet:使用分解的双分支扩散方法来进行图像内容的恢复和编辑

图像修复模型BrushNet:使用分解的双分支扩散方法来进行图像内容的恢复和编辑

图像模型 # BrushNet # 图像修复

1年前

01,0090

新型文生图模型YaART：利用人类反馈的强化学习与人类偏好进行对齐

新型文生图模型YaART：利用人类反馈的强化学习与人类偏好进行对齐

图像模型 # YaART # 文生图模型

1年前

05810

人像个性化框架UniPortrait：支持单人物（Single-ID）和多人物（Multi-ID）图像的定制化生成

人像个性化框架UniPortrait：支持单人物（Single-ID）和多人物（Multi-ID）图像的定制化生成

图像模型 # UniPortrait # 人像个性化

1年前

08340

字节跳动发布OneReward 框架：用单一奖励模型革新多任务图像编辑

字节跳动发布OneReward 框架：用单一奖励模型革新多任务图像编辑

图像模型 # FLUX.1-Fill-dev-OneReward # OneReward # 字节跳动

7个月前

03480

暂无评论

none

暂无评论...