文生图模型Playground v2.5:增强颜色和对比度、在多种宽高比下改善图像生成,以及改善以人为中心的细节

Playground正式发布最新文生图模型Playground v2.5,此模型提升了图像的美学质量,特别强调颜色和对比度的增强、改进了多纵横比图像生成,可以生成各种比例图像以及人像细节的提升。

目前模型已经在Hugging Face上释出,目前已经可以通过第三方插件在ComfyUI上运行,稍后官方也将提供扩展让大家可以在Automatic1111和ComfyUI运行此模型。大家也可以在Playground官网上免费使用此模型,免费用户每天可以生成500张图片。

  • 增强颜色和对比度: Playground v2.5通过改进噪声调度(noise schedule)来训练扩散模型,从而显著提高图像的真实感和视觉保真度。
  • 多宽高比图像生成: 模型能够在不同的宽高比下生成高质量的图像,这在实际应用中非常重要。
  • 人本细节优化: 通过与人类偏好对齐,Playground v2.5减少了在生成人类特征(如手、脸和躯干)时的视觉错误。
  • 噪声调度: 在训练过程中,Playground v2.5采用了一种新的噪声调度方法,使得在最终的“时间步”中信号与噪声比接近零,从而解决了颜色暗淡的问题。
  • 宽高比处理: 为了在不同宽高比下生成图像,Playground v2.5采用了一种平衡的数据集准备策略,确保模型不会对某一特定宽高比产生偏见。
  • 人类偏好对齐: 通过用户评分自动策划高质量数据集,并采用迭代的、包含人类参与的训练方法,Playground v2.5在生成人类相关图像时更加符合人类的审美偏好。

Playground v2.5在多个方面与其他文本到图像生成模型进行了对比,包括与SDXL、DALL·E 3、Midjourney v5.2、Playground v2以及PixArt-alpha等模型的比较。以下是一些关键的对比点:

  1. 颜色和对比度:Playground v2.5在生成具有鲜艳颜色和高对比度的图像方面表现出色。例如,与SDXL相比,Playground v2.5能够生成纯黑色或纯白色的背景,并且颜色更加丰富和生动。
  2. 多宽高比生成:Playground v2.5在处理不同宽高比的图像生成方面也有所改进。它能够在多种宽高比下生成高质量的图像,而不会像SDXL那样在非正方形宽高比下生成多个对象或错误的构图。
  3. 人类特征细节:在人类特征的细节处理上,Playground v2.5通过与人类偏好对齐,减少了视觉错误,如面部形态扭曲或身体结构不自然。这使得生成的人类图像在面部细节、眼睛形状和注视、头发纹理以及整体光照、颜色饱和度和景深方面更加符合人类的审美预期。
  4. 用户研究:通过在产品内进行的用户研究,Playground v2.5在审美偏好方面优于SDXL、DALL·E 3、Midjourney v5.2等模型。用户研究显示,Playground v2.5在多个方面(如面部细节、眼睛形状和注视、头发纹理等)的表现都优于其他模型。
  5. 自动评估基准:新引入的MJHQ-30K自动评估基准显示,Playground v2.5在整体Fréchet Inception Distance (FID)分数上优于Playground v2和SDXL,尤其是在人物和时尚类别上。

Playground v2.5在提升图像审美质量方面取得了显著的进步,不仅在用户研究中得到了验证,而且在自动评估基准上也表现出色。这些改进使得Playground v2.5在文本到图像生成领域中成为一个领先的模型。

0

评论0

没有账号?注册  忘记密码?