苹果推出了一个名为STARFlow的可扩展生成模型,它基于归一化流(Normalizing Flows,NFs),在高分辨率图像合成方面取得了显著的成果。STARFlow的主要构建块是Transformer自回归流(TARFlow),它结合了归一化流和自回归Transformer架构。论文通过一系列架构和算法创新,显著提升了模型的可扩展性,使其能够在高分辨率和大规模图像建模中取得成功。
例如,STARFlow能够生成具有不同宽高比的高分辨率图像,如图1所示。这些图像在视觉上与最先进的扩散模型和自回归模型相当,展示了其在图像合成任务中的强大能力。

主要功能
- 高分辨率图像合成:STARFlow能够生成高分辨率的图像,支持多种分辨率和宽高比。
- 文本条件图像生成:能够根据文本描述生成相应的图像,适用于文本到图像的生成任务。
- 图像编辑:支持基于文本指令的图像编辑,如添加、删除或修改图像中的特定元素。
主要特点
- 理论通用性:证明了多块自回归流(AFs)在建模连续分布时的通用性,为模型的可扩展性提供了理论基础。
- 深度-浅层架构:采用深度Transformer块捕获大部分模型容量,后跟几个计算成本低但贡献显著的浅层Transformer块。
- 潜在空间学习:在预训练自编码器的潜在空间中学习,比直接在像素空间中建模更有效。
- 新型引导算法:提出了一种新的引导算法,显著提高了样本质量,尤其是在高引导权重下的文本到图像生成任务中。
工作原理
- 理论基础:论文首先证明了多块自回归流(AFs)在建模连续分布时的通用性,为模型的可扩展性提供了理论支持。
- 深度-浅层架构:STARFlow采用深度Transformer块捕获大部分模型容量,后跟几个计算成本低但贡献显著的浅层Transformer块。这种架构设计使得模型在保持高效的同时,能够处理复杂的图像数据。
- 潜在空间学习:STARFlow在预训练自编码器的潜在空间中学习,而不是直接在像素空间中建模。这种方法不仅提高了模型的效率,还改善了高分辨率输入的建模能力。
- 新型引导算法:论文提出了一种新的引导算法,通过调整条件和非条件预测的差异来提高图像质量,特别是在高引导权重下。
测试结果
- 在ImageNet 256×256和512×512的类别条件图像生成任务中,STARFlow取得了与扩散模型和自回归模型相当的结果,FID分数分别为2.40和3.00。
- 在COCO数据集上的零样本文本到图像生成任务中,STARFlow取得了10.3的FID分数,接近最先进的扩散模型。
- 通过一系列消融实验,论文验证了深度-浅层架构、潜在空间学习和新型引导算法的有效性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















