加州大学洛杉矶分校、松下人工智能研究中心和 Salesforce 人工智能研究中心的研究人员推出新型框架Diffusion-KTO,它专门用于调整文生图模型,使其生成的图像更符合人类的偏好。这个过程不需要昂贵的成对偏好数据,也不需要训练复杂的奖励模型。Diffusion-KTO通过简单的每张图像的二元反馈信号(例如喜欢或不喜欢)来实现,这种数据在社交媒体平台上非常丰富,易于获取。
例如,如果你在社交媒体上看到一个由Diffusion-KTO微调的模型生成的图像,你可以通过点赞或不点赞来提供反馈。模型将使用这些反馈来学习和改进,以便未来生成的图像更符合你的偏好。这样,每次你与模型互动时,它都会更好地理解你的喜好,并生成你更喜欢的图像。
主要功能和特点:
- 易于获取的反馈: 与需要成对比较图像的方法不同,Diffusion-KTO使用每张图像的简单二元反馈,这使得数据收集更加容易和快速。
- 提高图像质量: 通过Fine-tuning(微调)过程,使用Diffusion-KTO的模型在人类评判和自动评估指标上都显示出比现有技术更好的性能。
- 图像与文本的对齐: Diffusion-KTO不仅提高了图像的质量,还提高了图像与输入文本的对齐度,使得生成的图像更符合用户的描述。
工作原理:
Diffusion-KTO将对齐目标设定为最大化预期的人类效用。它采用了来自行为经济学的人类感知损失函数(HALOs),这些函数体现了人类决策的特点。通过这种方式,Diffusion-KTO能够直接利用每张图像的偏好数据来微调扩散模型,而不需要通过整个逆向扩散过程进行采样。
具体应用场景:
- 个性化内容生成: 用户可以根据自己的喜好来微调模型,生成符合个人审美的图像。
- 社交媒体平台: 利用用户的点赞和不喜欢的数据来训练模型,生成更受欢迎的图像内容。
- 广告和营销: 根据目标受众的反馈来生成更具吸引力的广告图像。
- 艺术创作辅助: 艺术家可以使用这个框架来生成与他们风格匹配的图像,或者作为创作灵感的来源。
评论0