灵活视觉变换器FiT v2:根据给定的文本描述或已有的图像,生成高质量、高分辨率的新图像

自然界的图像具有无穷的分辨率,而现有的扩散模型(如扩散变换器)在处理超出其训练领域的图像分辨率时常常面临挑战。为了解决这一限制,研究人员提出了一种新的视角,将图像概念化为具有动态大小的令牌序列,而不是传统的固定分辨率网格。这种方法使得模型在训练和推理过程中能够无缝适应各种宽高比,从而促进分辨率泛化并消除图像裁剪引入的偏差。

灵活视觉变换器(FiT)

基于这一新视角,来自上海人工智能实验室、香港中文大学、上海交通大学、悉尼大学和清华大学的研究人员提出了灵活视觉变换器(FiT)。FiT 是一种专门设计用于生成无限制分辨率和宽高比图像的变换器架构。FiT 的主要特点包括:

  1. 动态令牌序列:将图像视为具有动态大小的令牌序列,而不是固定分辨率的网格。
  2. 灵活训练策略:能够在训练和推理过程中适应各种宽高比,促进分辨率泛化。
  3. 消除裁剪偏差:通过动态令牌序列,消除图像裁剪引入的偏差。

FiTv2:FiT 的升级版

为了进一步提升 FiT 的性能,研究人员推出了 FiTv2,采用了几项创新设计:

  1. 查询-键向量归一化:通过归一化查询和键向量,提高模型的稳定性和收敛速度。
  2. AdaLN-LoRA模块:引入自适应层归一化(AdaLN)和低秩适应(LoRA)模块,增强模型的适应性和泛化能力。
  3. 校正流调度器:优化训练过程中的学习率调度,提高模型的收敛速度。
  4. LogitNormal采样器:使用 LogitNormal 分布进行采样,提高生成图像的质量和多样性。

通过这些创新设计,FiTv2 展示了 FiT 的两倍收敛速度,并在分辨率外推和多样分辨率生成方面表现出显著的适应性。FiTv2专门设计用于生成任意分辨率和宽高比的图像,特别适用于处理图像分辨率变化的问题。简单来说,FiTv2能够根据给定的文本描述或已有的图像,生成高质量、高分辨率的新图像,而且这些图像可以是任意大小和形状。(PS:虽然给了GitHub和Hugging Face链接,但代码和模型均为释出)

主要功能和特点:

  1. 任意分辨率生成:FiTv2能够生成从低分辨率到高分辨率(如4K)的图像,这在以前的模型中是很难做到的。
  2. 灵活的宽高比:模型生成的图像不受固定宽高比限制,可以自由调整。
  3. 非自回归扩散框架:FiTv2采用了非自回归(NAR)策略,这意味着它可以一次性生成整个图像序列,而不是逐帧生成,提高了生成速度并减少了错误累积。
  4. 改进的网络结构:通过引入Query-Key向量归一化、AdaLN-LoRA模块等创新设计,FiTv2在效率和性能上都有显著提升。

工作原理:

FiTv2的工作原理基于扩散模型,这是一种通过逐步减少噪声来生成数据的生成模型。具体来说,模型首先将输入图像编码成潜在表示(latent representations),然后通过一个预训练的变分自编码器(VAE)将这些潜在表示进一步处理成一系列可变长度的token序列。在生成阶段,模型利用这些token序列来重建图像,同时考虑到文本提示和图像的潜在运动信息。

实验结果

  1. 分辨率外推:FiTv2 在处理超出训练分辨率的图像时表现出色,能够生成高质量的高分辨率图像。
  2. 多样分辨率生成:FiTv2 能够适应各种分辨率和宽高比,生成多样化的图像。
  3. 模型可扩展性:实验表明,更大的模型在计算效率上表现更好,进一步验证了 FiTv2 的可扩展性。
  4. 后训练策略:引入了一种高效的后训练策略,使预训练模型能够更好地适应高分辨率生成任务。

具体应用场景:

  1. 图像编辑和合成:FiTv2可以根据文本描述生成新的图像内容,适用于广告设计、游戏开发等领域。
  2. 虚拟现实和增强现实:在VR/AR应用中,可以根据用户的语音指令实时生成或修改虚拟角色的面部表情和动作。
  3. 电影和视频制作:FiTv2可以用来生成电影中的特效场景或者创建虚拟演员。
  4. 社交媒体和内容创作:用户可以利用FiTv2根据自己的照片和语音生成动态头像,用于社交媒体平台。
0

评论0

没有账号?注册  忘记密码?