苹果推出可扩展生成模型STARFlow：基于归一化流（NFs），在高分辨率图像合成方面取得了显著的成果

189 0

苹果推出了一个名为STARFlow的可扩展生成模型，它基于归一化流（Normalizing Flows，NFs），在高分辨率图像合成方面取得了显著的成果。STARFlow的主要构建块是Transformer自回归流（TARFlow），它结合了归一化流和自回归Transformer架构。论文通过一系列架构和算法创新，显著提升了模型的可扩展性，使其能够在高分辨率和大规模图像建模中取得成功。

论文：https://arxiv.org/abs/2506.06276

例如，STARFlow能够生成具有不同宽高比的高分辨率图像，如图1所示。这些图像在视觉上与最先进的扩散模型和自回归模型相当，展示了其在图像合成任务中的强大能力。

主要功能

高分辨率图像合成：STARFlow能够生成高分辨率的图像，支持多种分辨率和宽高比。
文本条件图像生成：能够根据文本描述生成相应的图像，适用于文本到图像的生成任务。
图像编辑：支持基于文本指令的图像编辑，如添加、删除或修改图像中的特定元素。

主要特点

理论通用性：证明了多块自回归流（AFs）在建模连续分布时的通用性，为模型的可扩展性提供了理论基础。
深度-浅层架构：采用深度Transformer块捕获大部分模型容量，后跟几个计算成本低但贡献显著的浅层Transformer块。
潜在空间学习：在预训练自编码器的潜在空间中学习，比直接在像素空间中建模更有效。
新型引导算法：提出了一种新的引导算法，显著提高了样本质量，尤其是在高引导权重下的文本到图像生成任务中。

工作原理

理论基础：论文首先证明了多块自回归流（AFs）在建模连续分布时的通用性，为模型的可扩展性提供了理论支持。
深度-浅层架构：STARFlow采用深度Transformer块捕获大部分模型容量，后跟几个计算成本低但贡献显著的浅层Transformer块。这种架构设计使得模型在保持高效的同时，能够处理复杂的图像数据。
潜在空间学习：STARFlow在预训练自编码器的潜在空间中学习，而不是直接在像素空间中建模。这种方法不仅提高了模型的效率，还改善了高分辨率输入的建模能力。
新型引导算法：论文提出了一种新的引导算法，通过调整条件和非条件预测的差异来提高图像质量，特别是在高引导权重下。

测试结果

在ImageNet 256×256和512×512的类别条件图像生成任务中，STARFlow取得了与扩散模型和自回归模型相当的结果，FID分数分别为2.40和3.00。
在COCO数据集上的零样本文本到图像生成任务中，STARFlow取得了10.3的FID分数，接近最先进的扩散模型。
通过一系列消融实验，论文验证了深度-浅层架构、潜在空间学习和新型引导算法的有效性。