基于Mamba架构的自回归(AR)图像生成模型AiM:实现高质量和高效率的图像生成,同时保持推理速度的优势

北京邮电大学、中国科学院大学、香港理工大学和中国科学院自动化研究所的研究人员推出自回归(autoregressive, AR)图像生成模型AiM,它基于Mamba架构构建。AiM模型的目的是实现高质量和高效率的图像生成,同时保持推理速度的优势。AiM的可扩展性,表明通过增加模型大小和训练步骤可以进一步提高生成图像的质量。此外,AiM的局限性,比如目前只专注于类别条件生成,未来可能会探索文本到图像的生成等更广泛的应用。

例如,你想要创造一幅全新的画作,但不需要亲自动手绘画。AiM就像一个虚拟的画家,它可以基于你的一些简单指示或类别标签,自动绘制出一幅图像。这就像是有一个无限创意的AI助手,它可以在几秒钟内生成你想象中的场景。

主要功能:

  • 自回归图像生成:AiM能够根据给定的前一个或一组像素,预测并生成下一个像素,从而逐步构建出整幅图像。
  • 类别条件生成:AiM能够根据给定的类别标签生成相应类别的图像。

主要特点:

  • Mamba架构:AiM采用了Mamba,这是一种新型的状态空间模型(state-space model, SSM),它在处理长序列数据时具有线性时间复杂度,表现出色。
  • 高生成质量:在ImageNet数据集上,AiM的最好模型达到了2.21的Fréchet Inception Distance(FID)得分,超越了参数数量相当的现有自回归模型。
  • 快速推理速度:与基于Transformer的自回归模型和扩散模型相比,AiM展现出了2到10倍更快的推理速度。

工作原理:

  1. 两阶段范式:首先训练图像分词器(编码器和量化器)以及解码器,然后通过因果序列建模来训练自回归模型。
  2. 位置编码:为了适应图像的二维特性,AiM引入了位置编码,帮助模型更好地理解图像的结构。
  3. 自回归生成:在生成图像时,AiM通过预测下一个像素(或图像标记)来逐步构建图像,直到生成完整的图像。
  4. 无分类器引导:AiM还采用了无分类器引导技术,通过在有条件和无条件的模型之间进行插值,来控制类别标签的影响,从而生成多样化和高质量的图像。

具体应用场景:

  • 艺术创作:AiM可以作为数字艺术家的助手,根据艺术家的描述生成图像作品。
  • 游戏开发:在游戏设计中,AiM可以用来快速生成游戏内的场景和元素。
  • 虚拟现实:在虚拟现实环境中,AiM可以生成逼真的虚拟环境和对象。
  • 数据增强:在机器学习中,AiM可以用来生成额外的训练数据,提高模型的泛化能力。
0

评论0

没有账号?注册  忘记密码?