OPPO推出多步潜在一致性模型MLCM：用于加速生成图像

新技术10个月前发布小马良

354 0

OPPO推出多步潜在一致性模型 MLCM，它用于加速生成图像的潜在扩散模型（LDMs）。简而言之，MLCM能够快速生成高质量的图像，同时保持较低的计算成本。MLCM仅需2-8步采样即可生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准上，从SDXL提炼的MLCM在仅4步的情况下获得了CLIP得分33.30、美学得分6.19和图像奖励1.20，显著超过了4步LCM、8步SDXLLightning和8步HyperSD的表现。我们还展示了MLCMs在可控生成、图像风格转移及中文到图像生成等应用中的多功能性。

论文：https://arxiv.org/abs/2406.05768

OPPO推出多步潜在一致性模型MLCM：用于加速生成图像

主要功能：

快速图像生成：MLCM能够在短时间内生成高质量的图像。
多步采样一致性：通过多步采样过程保持生成图像的一致性。
无需额外的训练数据：MLCM使用现有的模型状态作为训练数据，不需要额外的图像数据集。

主要特点：

统一模型：MLCM作为一个统一的模型，可以处理不同的采样步骤，适应不同的生成需求。
渐进式训练策略：通过增强段间一致性来提升少量采样步骤生成图像的质量。
图像自由的训练：利用教师模型的去噪过程作为训练数据，避免了模型训练和推理之间的差异。

工作原理：

多步潜在一致性蒸馏（MLCD）：将潜在空间的ODE（常微分方程）轨迹分成多个段，并在每个段内强制执行一致性。
渐进式训练：通过逐步增加时间步长来训练MLCM，以便更好地捕捉跨段的状态映射。
图像自由的MCD：使用教师模型的去噪过程生成训练数据，而不是依赖于外部图像数据集。
奖励一致性和反馈学习：结合人类偏好评分器来优化生成图像的视觉效果。

具体应用场景：

可控生成：用户可以控制生成图像的风格和内容。
图像风格转换：将一种风格的图像转换成另一种风格。
中文到图像的生成：将中文描述转换成相应的图像，有助于跨语言的图像生成应用。

新技术 # MLCM # OPPO # 多步潜在一致性模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

针对DiT模型的深度修剪方法TinyFusion：通过端到端学习去除冗余层，以减少模型的参数量和提高推理效率

针对DiT模型的深度修剪方法TinyFusion：通过端到端学习去除冗余层，以减少模型的参数量和提高推理效率

新技术 # DiT模型 # TinyFusion

4个月前

01330

基于视频扩散模型的上色工具AniDoc：用于自动化2D动画制作流程中的线稿着色

基于视频扩散模型的上色工具AniDoc：用于自动化2D动画制作流程中的线稿着色

新技术 # AniDoc # 线稿着色

3个月前

01610

新型视频生成模型Loong：基于自回归大语言模型，能够生成长达一分钟的连贯、内容丰富的视频

新型视频生成模型Loong：基于自回归大语言模型，能够生成长达一分钟的连贯、内容丰富的视频

新技术 # Loong # 自回归大语言模型

6个月前

03510

图像风格化技术B-LoRA：将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理

图像风格化技术B-LoRA：将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理

新技术 # B-LoRA # 图像风格化

9个月前

04230

暂无评论

none

暂无评论...