苹果推出可扩展生成模型STARFlow:基于归一化流(NFs),在高分辨率图像合成方面取得了显著的成果

新技术6个月前发布 小马良
185 0

苹果推出了一个名为STARFlow可扩展生成模型,它基于归一化流(Normalizing Flows,NFs),在高分辨率图像合成方面取得了显著的成果。STARFlow的主要构建块是Transformer自回归流(TARFlow),它结合了归一化流和自回归Transformer架构。论文通过一系列架构和算法创新,显著提升了模型的可扩展性,使其能够在高分辨率和大规模图像建模中取得成功。

例如,STARFlow能够生成具有不同宽高比的高分辨率图像,如图1所示。这些图像在视觉上与最先进的扩散模型和自回归模型相当,展示了其在图像合成任务中的强大能力。

主要功能

  • 高分辨率图像合成:STARFlow能够生成高分辨率的图像,支持多种分辨率和宽高比。
  • 文本条件图像生成:能够根据文本描述生成相应的图像,适用于文本到图像的生成任务。
  • 图像编辑:支持基于文本指令的图像编辑,如添加、删除或修改图像中的特定元素。

主要特点

  • 理论通用性:证明了多块自回归流(AFs)在建模连续分布时的通用性,为模型的可扩展性提供了理论基础。
  • 深度-浅层架构:采用深度Transformer块捕获大部分模型容量,后跟几个计算成本低但贡献显著的浅层Transformer块。
  • 潜在空间学习:在预训练自编码器的潜在空间中学习,比直接在像素空间中建模更有效。
  • 新型引导算法:提出了一种新的引导算法,显著提高了样本质量,尤其是在高引导权重下的文本到图像生成任务中。

工作原理

  1. 理论基础:论文首先证明了多块自回归流(AFs)在建模连续分布时的通用性,为模型的可扩展性提供了理论支持。
  2. 深度-浅层架构:STARFlow采用深度Transformer块捕获大部分模型容量,后跟几个计算成本低但贡献显著的浅层Transformer块。这种架构设计使得模型在保持高效的同时,能够处理复杂的图像数据。
  3. 潜在空间学习:STARFlow在预训练自编码器的潜在空间中学习,而不是直接在像素空间中建模。这种方法不仅提高了模型的效率,还改善了高分辨率输入的建模能力。
  4. 新型引导算法:论文提出了一种新的引导算法,通过调整条件和非条件预测的差异来提高图像质量,特别是在高引导权重下。

测试结果

  • 在ImageNet 256×256和512×512的类别条件图像生成任务中,STARFlow取得了与扩散模型和自回归模型相当的结果,FID分数分别为2.40和3.00。
  • 在COCO数据集上的零样本文本到图像生成任务中,STARFlow取得了10.3的FID分数,接近最先进的扩散模型。
  • 通过一系列消融实验,论文验证了深度-浅层架构、潜在空间学习和新型引导算法的有效性。
© 版权声明

相关文章

暂无评论

none
暂无评论...