Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

香港科技大学(广州)、穆罕默德·本·扎耶德人工智能大学和香港浸会大学的研究人员推出一种名为“Golden Noise for Diffusion Models”的学习框架,旨在提高文生图模型的性能。这种模型能够根据文本提示生成个性化的图像。研究团队提出了一种新的概念——“噪声提示”(noise prompt),通过这个概念,研究者们能够将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”(golden noise)。

例如,给定一个文本提示“三辆车在街上”,使用传统的扩散模型可能会生成与文本提示匹配度不高的图像。而通过使用“噪声提示”技术,模型能够生成与文本提示更加吻合、质量更高的图像。

主要功能:

  • 将随机高斯噪声转换成黄金噪声,以提高图像合成的质量和语义忠实度。
  • 作为一个即插即用的模块,与现有的扩散模型兼容,无需修改原始模型的架构。

主要特点:

  1. 噪声提示学习框架(Noise Prompt Learning Framework): 系统地学习与文本提示相关的黄金噪声。
  2. 噪声提示数据集(Noise Prompt Dataset, NPD): 包含大量随机噪声和黄金噪声对的数据集,用于训练噪声提示网络(NPNet)。
  3. NPNet(Noise Prompt Network): 一个小型的神经网络,能够学习如何将随机噪声转换为黄金噪声。
  4. 高效性: NPNet作为一个小型且高效的控制器,引入的额外推理和计算成本非常有限。

工作原理:

  1. 数据收集: 通过重去噪采样(re-denoise sampling)方法生成噪声对,并使用人类偏好模型(如HPSv2)来筛选有价值的噪声对。
  2. 模型训练: 使用收集到的噪声提示数据集训练NPNet,使其能够学习如何从源噪声和文本提示中生成目标噪声。
  3. 模型推理: 将训练好的NPNet应用于文本到图像扩散模型,将随机高斯噪声转换为黄金噪声,从而提高图像合成的质量。

具体应用场景:

  • 图像合成: 根据文本提示生成高质量的图像,适用于艺术创作、游戏设计、虚拟现实等领域。
  • 内容创作: 辅助内容创作者快速生成与文本描述相匹配的视觉内容。
  • 广告和营销: 根据产品描述生成吸引人的广告图像。
  • 社交媒体: 用户可以根据自己的想法生成个性化的图像内容。
0

评论0

没有账号?注册  忘记密码?