EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

来自韩国Nota AI和三星电子的研究人员推出EdgeFusion,它能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像。这项技术的核心是优化了文生图模型Stable Diffusion,使其能够在像三星 Exynos 这样的神经处理单元(NPU)上高效运行。例如,如果一个社交媒体用户想要创建一张描述“在雨中穿着黄色雨衣的孩子”的图片,他们只需提供一个文本描述,EdgeFusion 就能在他们的智能手机上快速生成这样一张图片。

文本到图像生成任务中,Stable Diffusion(SD)由于计算负担巨大,为其实际应用带来了显著的障碍。为了应对这一挑战,近期的研究主要聚焦于减少采样步骤的方法,如使用潜在一致性模型(LCM),以及采用架构优化技术,包括剪枝和知识蒸馏。与现有方法不同,开发人员独特地从紧凑的SD变体BK-SDM入手。将LCM直接应用于BK-SDM并使用常用的爬取数据集,所得到的结果并不理想。这促使开发团队发展出两种策略:一是利用领先生成模型中的高质量图像-文本对;二是设计专门针对LCM的高级蒸馏过程。通过开发人员对量化、分析和设备部署的深入探索,我们实现了在两步内快速生成逼真的、与文本匹配的图像,且在资源有限的边缘设备上,生成延迟不到一秒。

主要功能:

EdgeFusion 的主要功能是实现在移动设备上快速生成与文本描述相符的高分辨率图像。这对于那些希望在没有强大计算资源的情况下,快速创建图像的应用场景非常有用。

主要特点:

  1. 快速生成: EdgeFusion 能够在一秒钟内生成 512x512 分辨率的图像。
  2. 优化的模型: 它使用了一种紧凑的 SD 变体 BK-SDM,并对其进行了改进。
  3. 先进的蒸馏过程: 通过改进的蒸馏过程,即使是在只有少量去噪步骤的情况下也能生成高质量的图像。
  4. 数据质量提升: 通过使用高质量的图像-文本对和合成数据生成,提高了训练数据的质量。

工作原理:

EdgeFusion 的工作原理包括以下几个关键步骤:

  1. 模型优化: 采用 BK-SDM-Tiny 的压缩 U-Net 设计,减少计算瓶颈。
  2. 蒸馏过程: 使用 Latent Consistency Model(LCM)的步骤蒸馏方法,通过少量去噪步骤生成图像。
  3. 数据预处理: 对数据集进行去重、过滤低分辨率样本,并优化图像裁剪。
  4. 合成标题生成: 使用大型语言模型 Sphinx 生成详细的、相关的标题,提高文本-图像对应性。
  5. 完全合成数据生成: 使用 GPT-4 和 SDXL 生成图像和相应的提示,控制生成样本的质量。
  6. 人工数据策展: 手动策展合成数据,提高图像描述的准确性并移除含缺陷的图像。
  7. 模型分割: 为了适应 NPU 的有限内存,将模型分割为更小的部分进行有效推理。
  8. 量化: 应用混合精度量化,以便于在 NPU 上高效部署。

具体应用场景:

EdgeFusion 可以应用于多种场景,包括但不限于:

  • 移动应用: 在移动设备上快速生成社交媒体帖子或广告中的图像。
  • 即时通讯: 用户可以实时创建与聊天内容相匹配的图像。
  • 在线游戏: 为游戏内的角色或场景快速生成独特的图像。
  • 教育和培训: 快速生成教学材料中的图像,增强学习体验。
0

评论0

没有账号?注册  忘记密码?