南京大学、InstantX、Liblib AI、香港科技大学与中国移动的研究团队共同提出了一种名为RAG(Region-Aware Generation)的新方法,它是一种基于区域描述的精确布局组合文本到图像生成方法。RAG通过将复杂的输入提示分解为各个区域的基本描述,并分别处理每个区域,然后通过增强相邻区域之间的交互来提高图像生成的精确度和一致性。这种方法特别适用于需要精细空间控制的实际应用场景。
- GitHub:https://github.com/NJU-PCALab/RAG-Diffusion
- Demo:https://huggingface.co/spaces/NJU/RAG-Diffusion
例如,假设我们想要生成一张图片,其中包含了爱因斯坦在画蒙娜丽莎、马斯克参加美国总统选举、特朗普主持特斯拉产品发布会等场景。使用RAG,我们可以将这些复杂的场景分解为单独的区域,并为每个区域提供相应的文本描述,然后生成一张精确布局的图片。
背景与挑战
在文本到图像生成领域,区域提示或称组合生成因其能提供精细的空间控制而逐渐受到重视。然而,现有的方法存在一些局限性:一方面,有些方法引入了额外的可训练模块,限制了其通用性;另一方面,有些方法通过在跨注意力层中操作注意力掩码来实现控制,但随着区域数量的增加,这种控制的有效性会显著下降。
RAG 方法详解
为克服上述挑战,RAG 将多区域生成过程分解为两个核心子任务:
-
区域硬绑定:确保每个区域提示都能被准确执行,实现特定区域的精准生成。 -
区域软细化:在此阶段,RAG 对整个图像进行细节上的优化,消除各区域间的视觉边界,促进相邻区域间的自然过渡。 -
图像重绘: 利用RAG的控制和融合能力,可以在不改变其他区域的情况下重新生成特定区域,实现图像的局部修改。
此外,RAG 的一个重要创新点在于其重新绘制功能。用户可以在最终生成的图像中修改不满意的部分,而其余部分保持不变,这一过程无需借助额外的修补工具或模型。
主要特点
-
无需额外训练: RAG作为一种调整自由的方法,不需要对模型进行额外的训练。 -
提高控制强度和一致性: 通过硬绑定和软细化,RAG在处理多个区域时提高了控制强度和图像的一致性。 -
支持图像重绘: 用户可以直接修改特定区域,而无需依赖额外的图像修复模型。
方法优势
-
无需调优:RAG 方法本身不需要对模型进行微调,这大大简化了部署流程。 -
广泛的兼容性:它可以轻松集成到其他生成框架中,作为提示跟随属性的增强手段。 -
优越的性能:通过一系列定量和定性实验验证,RAG 在属性绑定和对象间关系处理等方面表现出色,超越了现有的无需调优的方法。
评论0