小米推出新型实时一步潜在扩散模型SDXS,它能够在图像生成任务中显著提高效率,同时保持图像质量。SDXS模型通过模型小型化和减少采样步骤的双重方法,显著降低了模型的延迟,使其能够在低功耗设备上实时生成高分辨率图像。
此方法通过知识蒸馏简化了U-Net和图像解码器架构,并引入了一种创新的单步DM训练技术,该技术结合了特征匹配和得分蒸馏。小米推出了两个模型:SDXS-512和SDXS-1024,它们分别能够在单个GPU上实现约100 FPS(比SD v1.5快30倍)和30 FPS(比SDXL快60倍)的推理速度。可惜的是目前小米仅释出了SDXS-512的0.9版本。
主要功能和特点:
- 实时图像生成: SDXS能够在1秒内生成高质量的图像,这对于需要快速响应的应用场景非常重要。
- 高效率: 相比于传统的扩散模型(如SD v1.5和SDXL),SDXS-512版本的速度提高了30倍,SDXS-1024版本提高了60倍。
- 图像条件控制: 该模型还能够进行图像条件控制,这意味着可以根据用户提供的图像来生成或修改图像。
工作原理:
SDXS模型的工作原理包括两个关键步骤:首先,通过知识蒸馏技术来简化U-Net和图像解码器的架构,从而减少模型的大小和参数数量;其次,引入了一种新颖的一步训练技术,该技术结合了特征匹配和得分蒸馏,以减少生成图像所需的函数评估次数(NFEs)。
应用场景:
- 移动设备图像编辑: SDXS可以部署在智能手机等移动设备上,用于实时图像编辑和生成。
- 在线内容创建: 在社交媒体和在线平台上,SDXS可以用于快速生成与文本描述相符的图像,提高内容创作的效率。
- 图像超分辨率: 利用图像条件控制功能,SDXS可以用于将低分辨率图像转换为高分辨率版本,适用于图像增强和修复任务。
评论0