EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

Tiamat AI、上海科技大学、新加坡国立大学和Liblib AI的研究人员推出 EasyControl 框架,为基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力。它通过一系列创新设计,使得 DiT 模型能够实现单条件训练后的零样本多条件泛化,并在多种图像生成任务中表现出色。

EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

主要功能

  1. 单条件训练后的零样本多条件泛化:EasyControl 能够在仅使用单条件数据训练的情况下,实现多条件组合的图像生成,而无需额外的多条件训练。
  2. 高效灵活的条件注入:通过 Condition Injection LoRA Module,可以将各种条件信号(如空间条件、主体条件等)灵活地注入到预训练的 DiT 模型中,而无需修改模型的原始权重。
  3. 支持任意分辨率和宽高比的图像生成:通过 Position-Aware Training Paradigm,模型能够生成具有不同分辨率和宽高比的图像,适应多样化的应用场景。
  4. 显著降低推理延迟:结合 Causal Attention Mechanism 和 KV Cache 技术,大幅减少了图像合成的延迟,提升了整体效率。
EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

主要特点

  • 高效性:通过 Position-Aware Training Paradigm 和 KV Cache 技术,显著降低了计算复杂度和推理时间。
  • 灵活性:支持多种条件信号的注入,并能够处理不同分辨率和宽高比的图像生成任务。
  • 零样本多条件泛化能力:即使在单条件训练下,也能很好地处理多条件组合的生成任务,展现出强大的泛化能力。
  • 即插即用:作为一个轻量级模块,EasyControl 可以无缝集成到现有的 DiT 模型中,无需对基础模型进行大量修改。

工作原理

  1. Condition Injection LoRA Module:通过引入一个轻量级的条件注入模块,将条件信号独立处理并注入到模型中。该模块基于 LoRA(Low-Rank Adaptation)技术,仅对条件分支进行低秩投影,而保持文本和噪声分支的权重不变,从而实现条件信号的高效注入。
  2. Position-Aware Training Paradigm:通过将输入条件标准化到固定分辨率,并采用位置感知插值(PAI)技术,使得模型能够学习任意宽高比和多分辨率的表示,同时优化了计算效率。
  3. Causal Attention Mechanism + KV Cache:将传统的全注意力机制替换为因果注意力机制,并结合 KV Cache 技术。在初始扩散时间步预计算并缓存所有条件特征的键值对,后续时间步直接复用这些缓存的键值对,从而大幅减少了计算量。

应用场景

  1. 虚拟试穿:结合服装图像和人体姿态图,生成虚拟试穿效果。例如,用户上传自己的照片和选择的服装,EasyControl 可以生成用户穿上该服装的逼真图像。
  2. 图像编辑:根据用户的指令(如“将背景替换为海滩”),结合输入的图像和编辑指令,生成符合要求的编辑后图像。
  3. 主体驱动的图像生成:根据输入的主体图像(如人物面部)和描述性文本,生成与主体一致的图像。例如,输入一张人脸和描述“在森林中”,生成该人物在森林中的图像。
  4. 空间控制生成:结合空间条件(如边缘图、深度图等)和文本描述,生成具有特定空间布局的图像。例如,根据边缘图生成具有相应形状和结构的图像。
  5. 多条件组合生成:同时结合多种条件(如 OpenPose 姿态图、面部图像等),生成满足所有条件的复杂图像。例如,生成一个具有特定姿态和面部特征的人物图像。
© 版权声明

相关文章

暂无评论

none
暂无评论...