强调了结构化注释的使用！用于训练复杂图像-文本模型的大规模数据集LAION-SG

159 0

浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训练复杂图像-文本模型的大规模数据集 LAION-SG，特别强调了结构化注释的使用。LAION-SG通过提供场景图（Scene Graphs，简称SG）来精确描述图像中的多个对象、它们的属性以及对象之间的关系，有效地表示复杂场景的语义结构。这些场景图与传统的文本描述相比，提供了更加紧凑和结构化的描述方式，这对于生成复杂场景的图像至关重要。

GitHub：https://github.com/mengcye/LAION-SG
数据：https://huggingface.co/datasets/mengcy/LAION-SG

例如，考虑一个场景，其中包含一个人骑着马，背景是绿色的草地。在LAION-SG中，这个场景可能会被表示为以下几个部分：

物品（Items）: {“person”, “horse”, “green grass”}
关系（Relations）: {“person riding horse”, “green grass”}

这种表示方法不仅描述了场景中的对象，还捕捉了它们之间的相互关系，这对于图像生成模型来说是非常有用的信息。

强调了结构化注释的使用！用于训练复杂图像-文本模型的大规模数据集LAION-SG

主要功能和特点

精确的语义结构表示：LAION-SG通过场景图提供了一种精确的方式来描述图像中的语义结构，这对于生成复杂场景的图像非常关键。
大规模和高质量数据集：LAION-SG是一个大规模的数据集，包含了高质量的结构化注释，这些注释详细描述了图像内容。
基于场景图的图像生成：论文提出了一个新的基础模型SDXL-SG，它利用场景图信息来生成图像，提高了生成复杂场景的能力。
性能评估标准：论文还引入了CompSG-Bench，一个用于评估模型在组合图像生成上性能的基准测试。

工作原理

LAION-SG的数据集基于LAION-Aesthetics V2构建，使用GPT-4o进行自动化注释。场景图由节点（代表对象和属性）和边（描述对象间关系）组成。SDXL-SG模型通过图神经网络（GNN）来提取场景图中的结构信息，并优化场景图嵌入。这些嵌入随后被送入SDXL模型的主干网络中，以生成高质量的复杂场景图像。