人类偏好优化技术NCPPO:改善文生图模型,使其生成的图像更加符合人类的偏好

俄罗斯国家研究型高等经济大学的研究人员推出新方法NCPPO,它用于改善文本到图像的扩散模型(Diffusion Models),使其生成的图像更加符合人类的偏好。扩散模型是一种生成模型,它们通过逐步去除噪声来生成图像,但这个过程与人的感知并不完全一致,导致在优化图像以符合人类偏好时效率不高。

NCPPO涵盖了利用直接偏好优化(DPO)、对比偏好优化(CPO)以及监督式微调(SFT)技术,在此嵌入层面上对Stable Diffusion 1.5和XL版本进行微调。此方法在多种衡量指标上,包括质量和计算资源消耗,均显著超越了常规的潜在空间实现方式。特别是在SDXL模型上,我们的策略在PartiPrompts数据集上实现了相对于原版开源SDXL-DPO,一般偏好提升了60.8%,视觉吸引度提高了62.2%,以及对提示遵循度提高了52.1%,同时大幅削减了计算成本。这一方法不仅促进了扩散模型在符合人类偏好方面的效率与质量双重提升,而且还便于与其他优化策略无缝集成。

例如,你想要生成一幅描述“宁静的海滩日落”的图像。使用传统的扩散模型,可能需要多次迭代和调整才能得到满意的结果。而使用NCPPO方法,模型可以更快地理解“宁静”和“日落”的感知特征,并生成一个视觉上更加吸引人、符合人类偏好的海滩日落图像。这种方法不仅提高了生成图像的质量,还大大减少了所需的计算资源和时间。

主要功能和特点:

  1. 感知目标优化:NCPPO使用扩散模型中U-Net嵌入空间的感知目标来优化模型,使其更好地与人类的视觉感知对齐。
  2. 提高训练效率:该方法显著减少了进行偏好优化所需的计算资源和训练时间。
  3. 提升模型性能:通过NCPPO优化的模型在人类评估指标上表现更好,包括图像质量、视觉吸引力和整体用户偏好。

工作原理:

NCPPO的工作原理涉及以下几个关键步骤:

  • 感知编码器:使用预训练的U-Net编码器,该编码器在噪声条件下的嵌入空间中工作。
  • 偏好数据集:假设有一个包含条件和偏好样本对的数据集,用于训练模型。
  • 优化过程:通过直接偏好优化(DPO)、对比偏好优化(CPO)和监督微调(SFT)等技术,在嵌入空间内进行优化。
  • 感知损失:利用感知损失来代替传统的扩散损失,使模型的优化过程更加符合人类的感知特征。

具体应用场景:

NCPPO的应用场景包括但不限于:

  • 图像生成:在艺术创作或娱乐产业中,根据文本描述生成符合人类审美的图像。
  • 广告设计:生成更吸引人的广告图像,以提高广告的吸引力和效果。
  • 社交媒体:用户可以根据自己的偏好生成个性化的图像内容。
  • 虚拟现实:在虚拟现实环境中生成符合用户期望的3D模型和场景。

总的来说,NCPPO通过在扩散模型的训练过程中引入感知目标,提供了一种更自然、更高效的与人类偏好对齐的方法,有望在未来的研究和实际应用中发挥重要作用。

0

评论0

没有账号?注册  忘记密码?