苹果推出新型图像生成模型Kaleido Diffusion:通过整合自回归的潜在先验来增强采样的图像多样性

苹果和弗吉尼亚理工大学的研究人员推出新型图像生成模型Kaleido Diffusion,此模型旨在通过自回归潜在模型(autoregressive latent modeling)提高扩散模型(diffusion models)生成图像的多样性,尤其是在使用高分类器自由引导(classifier-free guidance, CFG)权重时。例如,一个艺术家想要创作一系列以“猫坐在垫子上”为主题的画作,但希望每幅画作都有独特的风格和细节。使用Kaleido Diffusion,艺术家可以输入相同的文本描述,但模型会生成多种不同的视觉表现,比如不同颜色和图案的猫,或者不同风格的垫子和背景。这样,艺术家就能从这些多样的图像中获得灵感,创作出一系列丰富多样的作品。

Kaleido通过整合自回归的潜在先验来增强采样的图像多样性。Kaleido结合了一个自回归语言模型,该模型编码原始字幕并生成潜在变量,这些变量作为指导和促进图像生成过程的抽象和中介表示。在本文中,研究人员探讨了多种离散的潜在表示,包括文本描述、检测边界框、对象 blob和视觉token。这些表示使输入条件多样化,丰富了指导和促进图像生成过程的信息,从而使输出更加多元化。实验结果表明,Kaleido有效地扩大了从给定文本描述中生成的图像样本的多样性,同时保持了高图像质量。此外,我们还证明了Kaleido紧密遵循所提供的潜在变量指导,能够有效地控制和方向化图像生成过程。

主要功能与特点:

  1. 提高多样性:Kaleido通过引入自回归潜在先验(latent priors),增强了图像样本的多样性,解决了现有模型在相同文本提示下生成图像多样性不足的问题。
  2. 保持高质量:即使在高CFG下,Kaleido也能保持生成图像的高质量。
  3. 可解释性:生成的潜在变量(latent variables)是可解释的,提供了图像生成过程背后的机制,有助于理解不同潜在变量如何影响输出。
  4. 可控性:Kaleido提供了细粒度、可编辑的接口,允许用户在最终图像生成前调整离散潜在代码,从而更灵活地控制输出。

工作原理:

Kaleido模型的工作流程包括以下几个关键步骤:

  • 定义图像的离散编码:例如,详细的文本描述、边界框等,这些编码捕获了图像的抽象表示。
  • 自回归语言模型:该模型编码原始文本标题,并自回归地预测离散潜在令牌(latent tokens)。
  • 扩散模型:在原始文本提示和自回归生成的离散潜在基础上,条件化地生成图像。

具体应用场景:

  • 艺术创作:艺术家和设计师可以使用Kaleido Diffusion根据文本描述生成多样化的图像,为艺术作品提供灵感。
  • 媒体与广告:在媒体和广告行业,该模型可以用来创造吸引眼球的广告图像,提供多种创意视觉选项。
  • 内容创作:内容创作者可以利用这个模型将文本内容转化为视觉图像,丰富其作品的表现力。
  • 个性化产品:在电子商务等领域,Kaleido Diffusion可以根据用户的个性化需求生成定制的产品图像。
0

评论0

没有账号?注册  忘记密码?