字节跳动的研究团队提出了一种名为Infinity的新方法,该方法在位级标记预测框架下重新定义了视觉自回归(VAR)模型,能够根据语言指令生成高分辨率、逼真的图像。Infinity通过引入无限词汇标记器与分类器以及位级自校正机制,显著提升了图像生成的能力和细节表现。例如,你想要生成一张“在咖啡杯中航行的两艘海盗船战斗的逼真近距离视频”的图片,使用Infinity模型,你只需输入这段描述性的文本,模型就能理解并生成符合这一描述的高分辨率图像。
位级视觉自回归模型
传统VAR模型受限于有限的标记词汇表大小,这限制了它们的扩展能力和生成质量。Infinity通过将标记器词汇表大小理论上扩展到无穷大,并同时扩展变换器规模,释放了强大的扩展能力。这种设计使得模型能够在更精细的粒度上捕捉图像特征,从而生成更加逼真和详细的图像。
核心技术特点
- 无限词汇标记器与分类器:通过将标记器词汇表大小扩展到无穷大,Infinity能够表示更多的图像特征,提高了模型的表达能力和生成质量。
- 位级自校正机制:这一机制允许模型在生成过程中进行自我修正,确保生成的图像在细节上更加准确和自然。
- 高效生成:Infinity能够在0.8秒内生成一张高质量的1024x1024图像,比顶级扩散模型如SD3-Medium快2.6倍,成为目前最快的文本到图像模型之一。
主要功能:
- 高分辨率图像合成:能够根据文本提示生成高分辨率的图像。
- 精确的文本提示跟随:模型能够准确理解并遵循用户提供的文本提示。
- 空间推理:模型能够理解图像中的空间关系,生成符合逻辑的图像。
- 文本渲染:能够根据文本提示在图像中渲染文本。
- 美学优化:生成的图像在风格和美观度上具有多样性和吸引力。
主要特点:
- 无限词汇表:理论上将标记器的词汇表大小扩展到无穷大,提高了生成细节的能力。
- 位自纠正机制:在训练过程中通过随机翻转位来模拟预测错误,并重新量化残差特征,使系统具有自我纠正能力。
- 速度快:相比其他模型,Infinity在生成图像时速度更快。
工作原理:
- 视觉标记器:将图像编码为特征图,然后量化为多尺度残差图。
- 变换器(Transformer):学习基于先前预测和文本输入预测下一个尺度的残差。
- 位建模框架:包括位视觉标记器、无限词汇表分类器和位自纠正,替代了传统的索引式标记器。
- 自我纠正:通过模拟预测错误并重新量化,使模型能够自动纠正先前的错误。
性能提升
实验结果表明,Infinity在多个基准测试中取得了显著的成绩:
- GenEval基准评分:从0.62提升至0.73。
- ImageReward基准评分:从0.87提升至0.96。
- 胜率:达到了66%,超越了SD3-Medium等顶级扩散模型。
这些成绩不仅展示了Infinity在生成质量上的优势,还证明了其在速度和效率方面的卓越表现。
评论0