韩国科学技术研究院推出新型文本到图像生成技术GrounDiT(GROUNDIT),它通过利用DiT实现了无需训练的空间定位能力,用于在文本到图像生成中实现更精细的用户控制。这项技术特别关注于在图像生成过程中,根据文本提示和边界框(bounding boxes)精确地控制对象的空间位置,以增强图像生成的可控性和灵活性。
例如,我们要根据文本提示“一只热气球在夕阳下的天空中,下面是一个美丽的森林,有一辆车、一把椅子和一个瀑布”生成一张图片。GrounDiT能够根据这个描述,生成一张图片,其中热气球位于指定的上部区域,森林、车辆、椅子和瀑布则按照文本描述的顺序和位置出现在图片的下部区域。这种方法与传统方法相比,能够更精确地控制图像中各个对象的位置。
主要功能:
GrounDiT的主要功能是实现文本到图像的生成,同时能够根据用户提供的边界框精确控制图像中各个对象的空间位置。
主要特点:
- 无需训练:GrounDiT是一种无需训练的框架,可以直接应用于现有的扩散变换器模型,如PixArt-α。
- 空间定位能力:通过边界框,GrounDiT能够精确控制图像中对象的位置。
- 基于Transformer架构的灵活性:利用DiT的Transformer架构,GrounDiT能够处理不同分辨率的图像,提供更大的灵活性。
- 语义共享:GrounDiT利用了DiT的一个特性,即同时去噪的两个图像会逐渐变成“语义克隆”,这使得即使在不同的分辨率下,也能够实现精确的空间控制。
工作原理:
GrounDiT的工作原理基于两个阶段:
- 全局更新(Global Update):在这一阶段,GrounDiT使用跨注意力图(cross-attention maps)来更新噪声图像,以实现对所有边界框的整体空间定位。
- 局部更新(Local Update):在这一阶段,GrounDiT通过“语义共享”机制,为每个边界框培养一个噪声图像块,并将其移植到原始噪声图像的对应区域,实现对每个边界框的细粒度控制。
实验结果
为了验证这一方法的有效性,研究团队在HRS(High-Resolution Synthesis)和DrawBench两个基准测试中进行了实验。实验结果表明,相比之前的无训练空间定位方法,新的方法在以下几个方面表现出色:
- 空间定位精度:能够更精确地控制每个边界框内的内容生成,避免了全局更新带来的模糊和不一致问题。
- 生成质量:生成的图像在细节和整体一致性方面都有显著提升,尤其是在处理复杂场景时。
- 用户控制:用户可以通过简单的边界框输入,实现对生成图像的细粒度控制,增强了用户体验。
应用前景
这一新技术不仅为文本到图像生成领域带来了重要的技术进步,还为其他需要精细空间控制的图像生成任务提供了新的解决方案。未来,这一方法有望在创意设计、虚拟现实、游戏开发等多个领域得到广泛应用,为用户提供更多样化和高质量的图像生成体验。
评论0