OPPO推出多步潜在一致性模型MLCM,它用于加速生成图像的潜在扩散模型(LDMs)。简而言之,MLCM能够快速生成高质量的图像,同时保持较低的计算成本。MLCM仅需2-8步采样即可生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准上,从SDXL提炼的MLCM在仅4步的情况下获得了CLIP得分33.30、美学得分6.19和图像奖励1.20,显著超过了4步LCM、8步SDXLLightning和8步HyperSD的表现。我们还展示了MLCMs在可控生成、图像风格转移及中文到图像生成等应用中的多功能性。
主要功能:
- 快速图像生成:MLCM能够在短时间内生成高质量的图像。
- 多步采样一致性:通过多步采样过程保持生成图像的一致性。
- 无需额外的训练数据:MLCM使用现有的模型状态作为训练数据,不需要额外的图像数据集。
主要特点:
- 统一模型:MLCM作为一个统一的模型,可以处理不同的采样步骤,适应不同的生成需求。
- 渐进式训练策略:通过增强段间一致性来提升少量采样步骤生成图像的质量。
- 图像自由的训练:利用教师模型的去噪过程作为训练数据,避免了模型训练和推理之间的差异。
工作原理:
- 多步潜在一致性蒸馏(MLCD):将潜在空间的ODE(常微分方程)轨迹分成多个段,并在每个段内强制执行一致性。
- 渐进式训练:通过逐步增加时间步长来训练MLCM,以便更好地捕捉跨段的状态映射。
- 图像自由的MCD:使用教师模型的去噪过程生成训练数据,而不是依赖于外部图像数据集。
- 奖励一致性和反馈学习:结合人类偏好评分器来优化生成图像的视觉效果。
具体应用场景:
- 可控生成:用户可以控制生成图像的风格和内容。
- 图像风格转换:将一种风格的图像转换成另一种风格。
- 中文到图像的生成:将中文描述转换成相应的图像,有助于跨语言的图像生成应用。
评论0