新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而实现高级的文本-图像交错控制,并在生成具有复杂、概念融合输入的图像方面实现了最先进的性能。该框架能够灵活地将文本描述和图像元素结合起来,生成符合用户需求的高质量图像。

例如,用户可以输入一个指令:“将一只猫(参考图像1)放在海滩上(参考图像2)”,DREAM ENGINE 能够理解文本描述和参考图像的内容,并生成一个包含猫在海滩上的新图像。这种能力使得用户可以通过简单的文本指令和参考图像,精确地控制生成图像的视觉内容。

新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

主要功能

  1. 文本-图像交错控制:用户可以输入文本描述和多个参考图像,模型能够根据文本指令将不同图像的视觉元素组合起来,生成新的图像。
  2. 高质量图像生成:在保留扩散模型高质量图像生成能力的同时,扩展了其对复杂多模态指令的理解和执行能力。
  3. 灵活的图像编辑:支持自由形式的图像编辑任务,例如根据文本指令修改图像中的对象或背景。
  4. 对象驱动的生成:能够根据输入的多个图像和文本描述,合成新的图像,例如将不同图像中的对象组合到一个场景中。

主要特点

  1. 高效的两阶段训练范式:通过联合文本-图像对齐和多模态交错指令微调,实现了 LMM 和扩散模型的有效融合。
  2. 轻量级适配器设计:通过一个简单的适配器层(两层 MLP),将 LMM 的输出与扩散模型的条件空间对齐,无需复杂的架构修改。
  3. 强大的多模态理解能力:利用 LMM 提供的统一语义空间,实现了文本和图像的无缝对齐,支持复杂的多模态指令。
  4. 无需更新 LMM 参数:在训练过程中,LMM 的参数保持不变,仅对适配器和扩散模型进行微调,保留了 LMM 原有的多模态理解能力。

工作原理

架构设计

  • LMM 替换文本编码器:用 QwenVL 等大型多模态模型替换传统扩散模型中的文本编码器(如 CLIP 和 T5),通过一个轻量级适配器层将 LMM 的输出映射到扩散模型的条件空间。
  • 视觉特征融合:通过一个加权和机制(blending ratio)融合 LMM 的视觉特征和原始 ViT 特征,以控制生成图像的视觉一致性。
  • 扩散模型模块:采用 MM-DiT 结构,将文本和图像条件嵌入到扩散模型中,通过扩散过程生成图像。

两阶段训练

  • 阶段 1(联合文本-图像对齐):冻结 LMM 和扩散模型参数,仅训练适配器层,通过高质量的图像-文本对和自监督的图像重建任务,对齐 LMM 和扩散模型的表示空间。
  • 阶段 2(多模态交错指令微调):解冻扩散模型,训练适配器和扩散模型,通过自由形式图像编辑和对象驱动生成任务,进一步优化模型对复杂多模态指令的理解和执行能力。
新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

具体应用场景

  1. 创意图像生成
    • 用户可以通过简单的文本指令和参考图像,生成包含多种视觉元素的创意图像,例如将一个角色放置在不同的场景中,或者将多个角色组合到一个场景中。
    • 示例:将一只猫(参考图像1)放在海滩上(参考图像2),并为它添加一个超级英雄斗篷(文本指令)。
  2. 自由形式图像编辑
    • 用户可以输入一张图像和一个编辑指令,模型根据指令修改图像内容,例如更换背景、改变对象的外观等。
    • 示例:将图像中的女孩替换为男孩,或者将背景改为宇宙。
  3. 对象驱动的特征混合
    • 用户可以输入多个图像和一个文本描述,模型根据文本指令将不同图像中的对象特征组合起来,生成新的图像。
    • 示例:将一只猫的头部特征与女孩的头巾特征结合起来,生成一只戴着头巾的猫。
© 版权声明

相关文章

暂无评论

none
暂无评论...