无需图像数据的方法Diff-Instruct（DI）：用于构建符合人类偏好的一步式文生图模型，同时保持生成高度逼真图像的能力

158 0

北京大学、小红书和卡内基梅隆大学的研究人员推出一种无需图像数据的方法Diff-Instruct*（DI*），用于构建符合人类偏好的一步式文本到图像生成模型，同时保持生成高度逼真图像的能力。研究团队将人类偏好对齐问题框架化为基于人类反馈的在线强化学习（RLHF），目标是在最大化奖励函数的同时，通过正则化生成器分布使其接近参考扩散过程。例如，我们有一个文本提示：“一只坐在草地上的小猫”。使用DI*方法训练的模型能够直接从这个文本提示生成一张图像，这张图像不仅符合文本描述，而且在审美、布局和颜色上更符合人类的偏好。

论文地址：https://arxiv.org/abs/2410.20898
GitHub：https://github.com/pkulwj1994/diff_instruct_star

与传统RLHF方法依赖KL散度进行正则化不同，研究团队引入了一种新颖的基于分数的散度正则化方法，显著提升了性能。尽管直接计算这种偏好对齐目标仍然不可行，但研究团队证明了可以通过推导一个等效且可处理的损失函数来高效计算其梯度。

无需图像数据的方法Diff-Instruct*（DI*）：用于构建符合人类偏好的一步式文生图模型，同时保持生成高度逼真图像的能力

值得注意的是，研究团队使用 Diff-Instruct* 训练了一个基于 Stable Diffusion-XL 的一步式模型——2.6B DI-SDXL-1step* 文本到图像生成模型。该模型仅需1步生成即可生成分辨率为1024×1024的图像。DI-SDXL-1step* 模型仅使用1.88%的推理时间和29.30%的GPU内存成本，在 PickScore、ImageReward 和 CLIPScore（基于Parti提示基准）以及 HPSv2.1（基于人类偏好评分基准）上显著优于12B FLUX-dev-50step模型，确立了人类偏好一步式文本到图像生成模型的新标杆。

关键贡献

无需图像数据：DI* 是一种无需图像数据的方法，能够高效训练文本到图像生成模型。
基于分数的正则化：引入新颖的基于分数的散度正则化，显著提升模型性能。
一步生成：DI*-SDXL-1step 模型仅需1步生成即可生成高分辨率图像，大幅减少推理时间和资源消耗。
人类偏好对齐：在多个人类偏好基准上取得最先进性能，同时保持图像多样性和质量。

主要功能和特点

功能：训练一步式文本到图像生成模型，使其输出与人类偏好对齐。
特点：
- 无需图像数据：DI*不需要实际的图像数据，减少了对大量数据的依赖。
- 一步生成：模型能够直接从噪声生成图像，仅需一步，提高了效率。
- 人类偏好对齐：通过RLHF，模型生成的图像更符合人类的美学和偏好。
- 高分辨率输出：能够生成高达1024×1024分辨率的图像。