新型条件图像生成模型BiGR:不仅能创作出高质量的图像,还能理解和识别图像中的内容

香港大学、香港科技大学、云天励飞和香港中文大学的研究人员介绍了一种名为BiGR(Binary Generative Representation)的新型条件图像生成模型。BiGR 使用紧凑的二进制潜在代码进行生成训练,旨在增强生成和表示能力。它是第一个在同一框架内统一生成和判别任务的条件生成模型。

比如,你想生成一张“微笑的小猫”的图片,BiGR可以根据这个描述,创造出一张全新的图片,而且这张图片中的小猫看起来既自然又符合你的描述。同时,如果你给BiGR一张图片,它还能告诉你这张图片可能属于哪个类别,比如识别出图片中的主要物体是一只猫。

主要功能和特点

BiGR的主要功能和特点包括:

  1. 二进制编码:BiGR使用紧凑的二进制潜在代码进行生成训练,这使得模型在生成图像的同时,还能提供强大的特征表示。
  2. 统一框架:BiGR是首个将生成任务和判别任务统一在同一框架内的有条件生成模型,这意味着它既可以生成图像,也能作为特征提取器使用。
  3. 高效生成:BiGR引入了一种新的基于熵排序的采样方法,使得图像生成过程更加高效。
  4. 零样本泛化:BiGR能够在无需特定任务结构修改或参数微调的情况下,零样本地执行多种视觉任务,如图像修复、扩展、编辑、插值和丰富化。

工作原理

BiGR的工作原理可以分为以下几个步骤:

  1. 二进制标记器:将像素级的图像转换成一系列二进制潜在代码。
  2. 编码-解码结构:使用一个基于Transformer的语言模型,将二进制代码投影到连续的嵌入空间,并进行处理。
  3. 预测和重构:通过预测被掩盖的标记来重构图像,这一过程不依赖于任何判别性损失。
  4. 熵排序采样:在生成图像时,根据预测的伯努利分布概率的熵的大小来决定解蔽标记的顺序。
  5. 特征表示:通过对模型中间特征进行平均池化,得到图像的全局表示,用于下游的判别任务。

实验结果

  1. 生成质量:BiGR 在生成质量方面表现出色,通过FID-50k指标衡量,其生成的图像质量显著优于现有模型。
  2. 表示能力:BiGR 在表示能力方面也表现出色,通过线性探测准确性证明,其生成的图像能够有效地用于分类任务。
  3. 零样本泛化能力:BiGR 展示了在各种视觉任务中的零样本泛化能力,包括图像修复、外绘、编辑、插值和增强等应用,而无需进行结构修改。

具体应用场景

BiGR的应用场景非常广泛,包括但不限于:

  • 图像生成:根据文本描述生成相应的图像。
  • 图像编辑:在保留图像主要结构的同时,对细节进行调整和优化。
  • 图像修复和扩展:修复图像中损坏的部分或扩展图像的边界。
  • 图像插值:在两个不同类别的图像之间进行视觉插值,创造出新的图像。
  • 图像丰富化:增加低分辨率图像的细节,提高图像质量。
0

评论0

没有账号?注册  忘记密码?