字节推出新型视觉自回归(VAR)模型Infinity:根据语言指令生成高分辨率、逼真的图像

字节跳动的研究团队提出了一种名为Infinity的新方法,该方法在位级标记预测框架下重新定义了视觉自回归(VAR)模型,能够根据语言指令生成高分辨率、逼真的图像。Infinity通过引入无限词汇标记器与分类器以及位级自校正机制,显著提升了图像生成的能力和细节表现。例如,你想要生成一张“在咖啡杯中航行的两艘海盗船战斗的逼真近距离视频”的图片,使用Infinity模型,你只需输入这段描述性的文本,模型就能理解并生成符合这一描述的高分辨率图像。

位级视觉自回归模型

传统VAR模型受限于有限的标记词汇表大小,这限制了它们的扩展能力和生成质量。Infinity通过将标记器词汇表大小理论上扩展到无穷大,并同时扩展变换器规模,释放了强大的扩展能力。这种设计使得模型能够在更精细的粒度上捕捉图像特征,从而生成更加逼真和详细的图像。

核心技术特点

  • 无限词汇标记器与分类器:通过将标记器词汇表大小扩展到无穷大,Infinity能够表示更多的图像特征,提高了模型的表达能力和生成质量。
  • 位级自校正机制:这一机制允许模型在生成过程中进行自我修正,确保生成的图像在细节上更加准确和自然。
  • 高效生成:Infinity能够在0.8秒内生成一张高质量的1024x1024图像,比顶级扩散模型如SD3-Medium快2.6倍,成为目前最快的文本到图像模型之一。

主要功能:

  1. 高分辨率图像合成:能够根据文本提示生成高分辨率的图像。
  2. 精确的文本提示跟随:模型能够准确理解并遵循用户提供的文本提示。
  3. 空间推理:模型能够理解图像中的空间关系,生成符合逻辑的图像。
  4. 文本渲染:能够根据文本提示在图像中渲染文本。
  5. 美学优化:生成的图像在风格和美观度上具有多样性和吸引力。

主要特点:

  1. 无限词汇表:理论上将标记器的词汇表大小扩展到无穷大,提高了生成细节的能力。
  2. 位自纠正机制:在训练过程中通过随机翻转位来模拟预测错误,并重新量化残差特征,使系统具有自我纠正能力。
  3. 速度快:相比其他模型,Infinity在生成图像时速度更快。

工作原理:

  1. 视觉标记器:将图像编码为特征图,然后量化为多尺度残差图。
  2. 变换器(Transformer):学习基于先前预测和文本输入预测下一个尺度的残差。
  3. 位建模框架:包括位视觉标记器、无限词汇表分类器和位自纠正,替代了传统的索引式标记器。
  4. 自我纠正:通过模拟预测错误并重新量化,使模型能够自动纠正先前的错误。

性能提升

实验结果表明,Infinity在多个基准测试中取得了显著的成绩:

  • GenEval基准评分:从0.62提升至0.73。
  • ImageReward基准评分:从0.87提升至0.96。
  • 胜率:达到了66%,超越了SD3-Medium等顶级扩散模型。

这些成绩不仅展示了Infinity在生成质量上的优势,还证明了其在速度和效率方面的卓越表现。

0

评论0

没有账号?注册  忘记密码?