字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder-only transformer),旨在统一自回归(AR)和扩散模型(diffusion models)的生成范式。CausalFusion通过在序列标记和扩散噪声水平上的双重分解框架,实现了在图像生成任务中的高性能,并支持在AR和扩散模式之间的平滑过渡。
例如,我们有一个图像生成任务,需要生成一系列不同风格的图像。使用CausalFusion,我们可以在每个自回归步骤中随机选择生成图像的一部分,然后根据这部分可见的图像内容和一些噪声信息,逐步生成完整的图像。例如,我们可以先生成图像的一部分,然后根据这部分内容和新的类别标签,重新生成图像的另一部分,实现零样本图像编辑。
主要功能
- 双重分解框架:CausalFusion在序列标记和扩散噪声水平上进行双重分解,允许模型在这两个维度上灵活地生成图像。
- 自回归步骤的灵活性:模型可以在任何自回归步骤中预测任意数量的标记,支持长序列推理和上下文生成。
- 零样本图像编辑:CausalFusion支持零样本图像编辑,即使在只有类别条件生成任务的预训练下,也能生成高质量的编辑结果。
主要特点
- 统一AR和扩散模型:CausalFusion结合了自回归模型和扩散模型的优势,提供了一个统一的生成框架。
- 可扩展性和适应性:模型可以根据需要调整AR步骤和扩散步骤的数量,适应不同的生成任务。
- 多模态能力:CausalFusion不仅能够进行图像生成,还能够整合语言模态,实现图像和文本的联合建模。
工作原理
CausalFusion的工作原理基于以下几个关键步骤:
- 自回归分解:将图像分解为一系列标记,并沿着序列轴进行条件分布的分解。
- 扩散分解:在噪声水平轴上进行数据分布的分解,每个步骤的标记是前一步骤标记的去噪版本。
- 双重分解:CausalFusion将这两种分解方法结合起来,允许模型在序列和噪声水平两个维度上进行数据生成。
- 随机AR步骤:在训练过程中,CausalFusion随机选择AR步骤的数量,增加了模型的泛化能力。
具体应用场景
- 图像生成:CausalFusion可以用于生成高分辨率的图像,如在ImageNet数据集上的实验所示。
- 图像编辑:CausalFusion支持零样本图像编辑,可以对图像的特定区域进行修改,如更换图像中的物体或改变背景。
- 多模态任务:CausalFusion可以整合图像和文本数据,实现文本到图像的生成和图像描述生成等任务。
评论0