RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。
RealCompo利用了文本到图像(Stable Diffusion 1.5)和布局到图像(GLIGEN)模型的优势,通过一个新颖的平衡器在去噪过程中动态调整两者的权重,从而在保持图像真实性的同时,确保对象的准确位置和数量。
主要功能:
- 生成具有高真实性和良好组合性的多对象图像。
- 通过动态平衡T2I和L2I模型的优势,提高图像生成的质量。
主要特点:
- 提出了一个训练免费且易于迁移的框架,可以与任何预训练的T2I和L2I模型无缝结合。
- 设计了一个创新的平衡器,根据每个模型的交叉注意力图动态调整预测噪声的权重。
- 在多个对象组合生成任务中,RealCompo在保持图像真实性的同时,提高了对象位置和数量的准确性。
工作原理:
RealCompo的工作原理是基于文本到图像和布局到图像两种模型的结合。它首先利用文本到图像模型将文本描述转化为图像内容,然后利用布局到图像模型将这些内容按照特定的布局组合起来。通过动态平衡这两种模型的优点,RealCompo能够生成既真实又具有组合性的多对象图像。
- RealCompo首先使用大型语言模型(LLM)分析输入文本提示,生成对象的布局,实现对象和属性的“预绑定”。
- 然后,引入一个平衡器,它通过分析每个模型在每个去噪步骤中的交叉注意力图来动态更新模型的权重。
- 平衡器根据T2I模型和L2I模型的预测噪声,动态地结合两者的优势,生成高质量的图像。
评论0