香港大学、华为诺亚方舟实验室、香港中文大学、清华大学、上海交通大学和无问芯穹的研究人员推出一种无需训练的概率并行解码算法SJD(猜测性雅可比解码),用于加速自动回归文本到图像的生成模型。自动回归模型在生成高质量图像方面表现出色,但通常需要很多步骤来逐个预测下一个要生成的内容(比如像素或图像块),这使得生成一张图像需要很长时间。SJD方法可以在不牺牲图像质量的前提下,减少生成图像所需的步骤,从而加快图像生成的速度。
SJD通过引入概率收敛标准,SJD加速了自回归文本到图像生成的推理,同时保持了基于采样的令牌解码中的随机性,并允许模型生成多样化的图像。具体来说,SJD使得模型在每个步骤中预测多个令牌,并根据概率标准接受令牌,使得模型生成图像所需的步骤少于传统的下一个令牌预测范式。研究人员还研究了利用视觉数据的空间局部性的令牌初始化策略,以在特定情况下进一步提高加速比。例如,你是一名平面设计师,需要根据文本描述快速生成一系列图像概念,比如“在山顶上穿着黄色西装的帅气男人”。使用SJD,模型可以快速迭代出多个版本的图像草图,让你挑选最满意的设计,这个过程比传统的自动回归生成模型快很多。
主要功能:
-
加速图像生成过程:SJD通过并行预测多个内容块,减少生成图像所需的总计算步骤。 -
保持图像多样性:在加速的同时,SJD支持随机采样,使得生成的图像能够保持多样性。
主要特点:
-
训练无关:SJD不需要对现有模型进行再训练,可以直接应用于预训练好的自动回归模型。 -
概率性收敛标准:与传统的雅可比解码(Jacobi Decoding)使用确定性标准不同,SJD引入了概率性标准来判断何时停止解码过程。 -
空间局部性感知的初始化策略:SJD考虑图像的空间特性,使用图像数据的空间局部性来优化初始预测,进一步提高加速比。
工作原理:
SJD的核心思想是在每次迭代中并行预测多个令牌(图像生成的基本单元),然后根据概率性标准决定哪些预测结果可以被接受。这个过程不需要额外的训练,直接利用预训练模型的输出。通过这种方式,SJD可以在较少的迭代步骤中生成图像,从而提高生成速度。
具体应用场景:
-
内容创作:艺术家和设计师可以使用SJD快速生成图像概念或草图。 -
社交媒体:用户可以快速生成个性化的图像内容用于社交媒体分享。 -
游戏开发:游戏设计师可以利用SJD快速生成游戏内的场景或角色概念图。 -
广告和营销:营销人员可以快速生成吸引人的广告图像,以适应快速变化的市场趋势。
评论0