自然语言在描述复杂场景时,尤其是在准确地将位置和属性信息与多个实例关联方面,常常遇到困难。这限制了当前基于文本的视觉生成模型,使其只能生成包含少数主导实例的简单组合。为了解决这一限制,新加坡国立大学、Meta和MIT的研究人员引入了一种新的方法ROICtrl,通过区域实例控制(ROI Control)来增强扩散模型。例如,给定一个描述“两个棒球运动员站在场地上,其中一个戴着棒球手套”的文本,ROICtrl能够生成一个图像,其中精确地控制每个运动员和棒球手套的位置和细节。
ROICtrl旨在提升视觉生成模型中对多个实例(instances)的控制能力。ROICtrl通过引入区域实例控制(regional instance control),使得每个实例都由一个边界框(bounding box)和自由形式的标题(free-form caption)来管理,从而改善了文本到图像生成模型在处理复杂构图时的局限性。
关键挑战
-
位置信息的准确传递:以往的方法通常依赖于隐式位置编码或显式注意力掩码来分离感兴趣区域(ROIs),但这会导致坐标注入不准确或计算开销巨大。 -
多实例生成:现有模型难以处理多个实例的精确位置和属性控制,尤其是在高分辨率图像生成中。
解决方案:ROI-Unpool 和 ROICtrl
ROI-Unpool
受目标检测中ROI-Align操作的启发,研究人员引入了一种互补操作,称为ROI-Unpool。ROI-Align和ROI-Unpool共同实现了在视觉生成的高分辨率特征图上进行显式、高效和准确的ROI操作。
-
ROI-Align:用于从特征图中提取固定大小的特征向量,确保特征的空间对齐。 -
ROI-Unpool:用于将这些特征向量重新映射回特征图中的相应位置,实现精确的位置控制。
ROICtrl
基于ROI-Unpool,研究人员提出了ROICtrl,这是一种适用于预训练扩散模型的适配器,能够实现精确的区域实例控制。ROICtrl的主要特点包括:
-
兼容性:ROICtrl兼容社区微调的扩散模型,以及现有的基于空间(如ControlNet, T2IAdapter)和基于嵌入(如IP-Adapter, ED-LoRA)的附加组件,扩展了它们在多实例生成中的应用。 -
精确控制:每个实例由一个边界框和自由形式的描述配对来控制,实现了对位置和属性的精确控制。 -
高效性:通过ROI-Unpool操作,ROICtrl在保持高精度的同时显著降低了计算成本。
主要功能
-
精确的区域实例控制:ROICtrl能够精确控制图像中每个实例的位置和属性。 -
与现有模型和插件兼容:ROICtrl可以与社区微调的扩散模型以及现有的空间和嵌入基础插件兼容,扩展了多实例生成的应用。 -
提高计算效率:通过ROI-Unpool操作,ROICtrl在保持高分辨率特征图的同时,减少了计算成本。
主要特点
-
ROI-Unpool操作:ROICtrl引入了ROI-Unpool操作,与ROI-Align互补,允许在高分辨率特征图上显式、高效、准确地操作ROI。 -
适配器设计:ROICtrl作为一个适配器,可以集成到预训练的扩散模型中,无需额外的可学习模块。 -
兼容性:ROICtrl不仅能够独立控制实例,还能够与基于空间和嵌入的插件一起工作,提供更细粒度的控制。
工作原理
ROICtrl的工作原理基于以下几个关键步骤:
-
ROI-Align和ROI-Unpool:通过ROI-Align提取ROI特征,并使用ROI-Unpool将处理后的ROI特征放回原始位置。 -
实例标题注入:使用预训练的交叉注意力机制将实例标题注入到ROI特征中。 -
可学习的注意力混合:通过1x1卷积和softmax函数动态融合全局注意力输出和实例注意力输出,以增强特定区域的文本对齐。
实验结果
实验表明,ROICtrl在区域实例控制方面表现出色,能够在复杂的多实例场景中生成高分辨率图像。具体来说:
-
位置和属性的精确控制:ROICtrl能够准确地将位置和属性信息与多个实例关联,生成符合描述的图像。 -
计算效率:相比以往的方法,ROICtrl显著降低了计算开销,提高了生成速度。 -
多实例生成:ROICtrl在生成包含多个实例的复杂场景时表现优异,展示了其在多实例生成任务中的强大能力。
评论0