新型框架Diffusion-KTO：用于调整文生图模型，使其生成的图像更符合人类的偏好

图像模型1年前更新小马良

658 0

加州大学洛杉矶分校、松下人工智能研究中心和 Salesforce 人工智能研究中心的研究人员推出新型框架Diffusion-KTO，它专门用于调整文生图模型，使其生成的图像更符合人类的偏好。这个过程不需要昂贵的成对偏好数据，也不需要训练复杂的奖励模型。Diffusion-KTO通过简单的每张图像的二元反馈信号（例如喜欢或不喜欢）来实现，这种数据在社交媒体平台上非常丰富，易于获取。

论文地址：https://arxiv.org/abs/2404.04465

例如，如果你在社交媒体上看到一个由Diffusion-KTO微调的模型生成的图像，你可以通过点赞或不点赞来提供反馈。模型将使用这些反馈来学习和改进，以便未来生成的图像更符合你的偏好。这样，每次你与模型互动时，它都会更好地理解你的喜好，并生成你更喜欢的图像。

主要功能和特点：

易于获取的反馈： 与需要成对比较图像的方法不同，Diffusion-KTO使用每张图像的简单二元反馈，这使得数据收集更加容易和快速。
提高图像质量： 通过Fine-tuning（微调）过程，使用Diffusion-KTO的模型在人类评判和自动评估指标上都显示出比现有技术更好的性能。
图像与文本的对齐： Diffusion-KTO不仅提高了图像的质量，还提高了图像与输入文本的对齐度，使得生成的图像更符合用户的描述。

工作原理：

Diffusion-KTO将对齐目标设定为最大化预期的人类效用。它采用了来自行为经济学的人类感知损失函数（HALOs），这些函数体现了人类决策的特点。通过这种方式，Diffusion-KTO能够直接利用每张图像的偏好数据来微调扩散模型，而不需要通过整个逆向扩散过程进行采样。

具体应用场景：

个性化内容生成： 用户可以根据自己的喜好来微调模型，生成符合个人审美的图像。
社交媒体平台： 利用用户的点赞和不喜欢的数据来训练模型，生成更受欢迎的图像内容。
广告和营销： 根据目标受众的反馈来生成更具吸引力的广告图像。
艺术创作辅助： 艺术家可以使用这个框架来生成与他们风格匹配的图像，或者作为创作灵感的来源。

图像模型 # Diffusion-KTO # 文生图模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Stability AI推出新模型Stable Cascade

Stability AI推出新模型Stable Cascade

图像模型 # Stability AI # Stable Cascade # 模型

1年前

08290

文字处理能力出众！Playground推出最新文生图模型Playground v3

文字处理能力出众！Playground推出最新文生图模型Playground v3

图像模型 # Playground v3 # 文生图模型

1年前

04580

新型多层透明图像生成方法ART：通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

新型多层透明图像生成方法ART：通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

图像模型 # ART # 透明图像

1年前

02980

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

图像模型 # PixelFlow # 图像生成模型

12个月前

02010

暂无评论

none

暂无评论...