北京邮电大学、中国科学院大学、香港理工大学和中国科学院自动化研究所的研究人员推出自回归(autoregressive, AR)图像生成模型AiM,它基于Mamba架构构建。AiM模型的目的是实现高质量和高效率的图像生成,同时保持推理速度的优势。AiM的可扩展性,表明通过增加模型大小和训练步骤可以进一步提高生成图像的质量。此外,AiM的局限性,比如目前只专注于类别条件生成,未来可能会探索文本到图像的生成等更广泛的应用。
例如,你想要创造一幅全新的画作,但不需要亲自动手绘画。AiM就像一个虚拟的画家,它可以基于你的一些简单指示或类别标签,自动绘制出一幅图像。这就像是有一个无限创意的AI助手,它可以在几秒钟内生成你想象中的场景。
主要功能:
- 自回归图像生成:AiM能够根据给定的前一个或一组像素,预测并生成下一个像素,从而逐步构建出整幅图像。
- 类别条件生成:AiM能够根据给定的类别标签生成相应类别的图像。
主要特点:
- Mamba架构:AiM采用了Mamba,这是一种新型的状态空间模型(state-space model, SSM),它在处理长序列数据时具有线性时间复杂度,表现出色。
- 高生成质量:在ImageNet数据集上,AiM的最好模型达到了2.21的Fréchet Inception Distance(FID)得分,超越了参数数量相当的现有自回归模型。
- 快速推理速度:与基于Transformer的自回归模型和扩散模型相比,AiM展现出了2到10倍更快的推理速度。
工作原理:
- 两阶段范式:首先训练图像分词器(编码器和量化器)以及解码器,然后通过因果序列建模来训练自回归模型。
- 位置编码:为了适应图像的二维特性,AiM引入了位置编码,帮助模型更好地理解图像的结构。
- 自回归生成:在生成图像时,AiM通过预测下一个像素(或图像标记)来逐步构建图像,直到生成完整的图像。
- 无分类器引导:AiM还采用了无分类器引导技术,通过在有条件和无条件的模型之间进行插值,来控制类别标签的影响,从而生成多样化和高质量的图像。
具体应用场景:
- 艺术创作:AiM可以作为数字艺术家的助手,根据艺术家的描述生成图像作品。
- 游戏开发:在游戏设计中,AiM可以用来快速生成游戏内的场景和元素。
- 虚拟现实:在虚拟现实环境中,AiM可以生成逼真的虚拟环境和对象。
- 数据增强:在机器学习中,AiM可以用来生成额外的训练数据,提高模型的泛化能力。
评论0