新型SD加速模型PCM:解决在高分辨率、文本条件图像生成中的一些现有问题而设计

香港中文大学、 Avolution AI 、Hedra、上海人工智能实验室、商汤和斯坦福大学的研究人员推出新的SD加速模型PCM(Phased Consistency Model,分阶段一致性模型),此模型是为了解决在高分辨率、文本条件图像生成中的一些现有问题而设计的。此模型针对当前LCM模型存在的三大核心问题,深入分析这些问题的根源,通过扩大设计框架,解决了原来LCM模型的各种问题

PCM主要改善了三个LCM原有的问题:

  • LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。
  • LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。
  • LCM 的损失项无法实现分布一致性,在低推理步骤下会产生质量较差的结果。

评估结果显示,PCM在涉及1到16步的生成场景下,表现明显优于LCM。值得注意的是,尽管PCM侧重于多阶段精细化生成,它在单步生成任务上也能达到或超越先前专为单步优化的前沿方法的水平。此外,我们证明了PCM方法的通用性,将其成功应用于视频生成,助力我们训练出在少量步骤内即可将文本转化为视频的顶尖模型。PCM不仅修正了LCM的不足之处,还在图像及视频生成领域展现了杰出效能,是对基于文本的高分辨率媒体生成技术的重要贡献。

例如,你是一位游戏设计师,需要快速生成一个穿着太阳镜微笑的狗的图像。使用PCM,你只需提供一个文本描述,模型就能在几个步骤内生成高质量的图像,而且如果你需要对这个图像进行微调,比如改变太阳镜的样式或狗的表情,PCM都能够在保持整体一致性的同时做出相应的调整。

主要功能和特点:

  1. 多步骤精细化生成: PCM专门设计用于多步骤的图像和视频生成,可以在1到16步的生成设置中显著提高性能。
  2. 高一致性: 与现有的潜在一致性模型(LCM)相比,PCM能够在不同的推断步骤中生成一致的结果,不会出现模糊或曝光问题。
  3. 控制性强: PCM对于文本指导的反应更加灵敏,可以接受更广泛的分类器自由引导(CFG)值,这使得生成的图像更容易控制和定制。
  4. 高效率: 该模型在少步骤设置下也能产生高质量的结果,特别是在4步以下的推断步骤中,提高了采样效率。

工作原理:

PCM的核心思想是将整个生成过程分解为多个子轨迹,每个子轨迹都作为一个独立的一致性模型来训练。这样,模型就可以在每个子轨迹上强制执行自一致性属性,即同一子轨迹上的任意点都将映射到相同的解。这种方法避免了在传统一致性模型中可能出现的随机误差累积。

具体应用场景:

  1. 高质量图像生成: 利用PCM,可以快速生成高分辨率的图像,这对于需要大量图像素材的内容创作者来说非常有用,例如游戏设计、电影制作或虚拟现实体验。
  2. 个性化视频内容: PCM还可以应用于根据文本描述生成视频内容,这在动画制作或个性化视频广告中可能非常有价值。
  3. 艺术创作辅助: 艺术家和设计师可以使用PCM来实现他们的想法,通过文本描述来生成独特的视觉作品。
0

评论0

没有账号?注册  忘记密码?