新型文本到图像生成技术GrounDiT：利用DiT实现了无需训练的空间定位能力，实现更精细的用户控制

410 0

韩国科学技术研究院推出新型文本到图像生成技术GrounDiT（GROUNDIT），它通过利用DiT实现了无需训练的空间定位能力，用于在文本到图像生成中实现更精细的用户控制。这项技术特别关注于在图像生成过程中，根据文本提示和边界框（bounding boxes）精确地控制对象的空间位置，以增强图像生成的可控性和灵活性。

项目主页：https://groundit-visualai.github.io
GitHub：https://github.com/KAIST-Visual-AI-Group/GrounDiT

例如，我们要根据文本提示“一只热气球在夕阳下的天空中，下面是一个美丽的森林，有一辆车、一把椅子和一个瀑布”生成一张图片。GrounDiT能够根据这个描述，生成一张图片，其中热气球位于指定的上部区域，森林、车辆、椅子和瀑布则按照文本描述的顺序和位置出现在图片的下部区域。这种方法与传统方法相比，能够更精确地控制图像中各个对象的位置。

主要功能：

GrounDiT的主要功能是实现文本到图像的生成，同时能够根据用户提供的边界框精确控制图像中各个对象的空间位置。

主要特点：

无需训练：GrounDiT是一种无需训练的框架，可以直接应用于现有的扩散变换器模型，如PixArt-α。
空间定位能力：通过边界框，GrounDiT能够精确控制图像中对象的位置。
基于Transformer架构的灵活性：利用DiT的Transformer架构，GrounDiT能够处理不同分辨率的图像，提供更大的灵活性。
语义共享：GrounDiT利用了DiT的一个特性，即同时去噪的两个图像会逐渐变成“语义克隆”，这使得即使在不同的分辨率下，也能够实现精确的空间控制。

工作原理：

GrounDiT的工作原理基于两个阶段：

全局更新（Global Update）：在这一阶段，GrounDiT使用跨注意力图（cross-attention maps）来更新噪声图像，以实现对所有边界框的整体空间定位。
局部更新（Local Update）：在这一阶段，GrounDiT通过“语义共享”机制，为每个边界框培养一个噪声图像块，并将其移植到原始噪声图像的对应区域，实现对每个边界框的细粒度控制。