CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

图像模型3个月前更新 小马良
146 0

尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系

例如,当用户输入:

“一个棕色皮革沙发放在高书架的左边,复古台灯在精装书旁,墙钟挂在陶瓷花瓶上方,一只睡猫躺在编织篮子里。”

传统模型可能将沙发置于书架“后面”,台灯“压在”书上,或让墙钟与花瓶“重叠”——这些错误暴露了模型对“左”、“旁”、“上”、“内”等空间语义的理解不足。

为解决这一问题,浙江大学、vivo 和蚂蚁集团的研究人员联合推出 CoMPaSS(Comprehensive Method for Positional and Spatial Synthesis),一个通用、轻量、无需额外参数的训练框架,显著增强T2I模型的空间理解能力。

CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

问题根源:数据模糊与语义丢失

研究团队指出,T2I模型在空间关系上的失败,源于两个根本性问题:

  1. 训练数据的空间模糊性
    现有图文对数据集中,大量描述如“一只狗在车旁”缺乏明确的空间定义——“旁”是左?右?前?距离多远?这种模糊性导致模型难以学习精确的空间先验。
  2. 文本编码器的顺序信息丢失
    当前T2I模型使用的文本编码器(如CLIP)在提取特征时,往往弱化了词序信息。而“猫在篮子里”与“篮子在猫里面”语义截然不同,词序至关重要。

CoMPaSS 正是从这两个层面入手,提出系统性解决方案。

核心创新:SCOP + TENOR

1. SCOP 数据引擎:构建空间清晰的训练数据

SCOP(Spatial Constraints-Oriented Pairing)是一个自动化数据筛选与重构引擎,旨在从现有数据中提取出空间关系明确的高质量图文对。

其工作流程分为三步:

  • 关系推理:利用目标检测与空间分析,识别图像中所有对象对及其相对位置(左/右/上/下/内/旁等)。
  • 空间约束过滤:应用五项原则筛选清晰关系:
    • 视觉显著性:对象在图像中清晰可见
    • 语义区分:对象类别不同,避免混淆
    • 空间清晰度:位置关系明确,无遮挡或歧义
    • 最小重叠:对象不严重重叠
    • 大小平衡:避免极小对象主导关系
  • 关系解码:将符合条件的对象对裁剪为局部图像,并生成精准描述(如“沙发在书架左侧”),用于模型训练。

通过SCOP,CoMPaSS构建了一个“空间干净”的子数据集,引导模型学习更精确的空间映射。

2. TENOR 模块:保留文本顺序语义

TENOR(Token ENcoding ORdering)是一个即插即用的轻量模块,旨在强化文本编码中的词序信息

其核心思想是:在交叉注意力机制中,显式注入文本标记的绝对位置编码

  • 对于 UNet 架构:将位置编码添加到每个文本-图像注意力层的 键(K)向量
  • 对于 MMDiT 架构:将位置编码注入 文本查询(Qtext)和键(Ktext) 向量

这一设计确保模型在生成图像时,能持续感知“哪个词在前,哪个词在后”,从而更准确地解析“左”、“右”、“上”、“内”等依赖顺序的空间描述。

✅ TENOR 不引入额外可训练参数,仅在注意力计算中微调,推理开销极小。

实验结果:显著提升,广泛适用

CoMPaSS 在四个主流开源 T2I 模型上进行了验证,涵盖 UNet 与 MMDiT 两种架构,证明其通用性。

在多个空间理解基准测试中表现卓越:

基准模型相对提升
VISORFLUX.1+98%
T2I-CompBench Spatial多模型平均+67%
GenEval Position多模型平均+131%

此外,在 DPG-Bench 上,CoMPaSS 增强模型在长文本提示下的整体得分更高,表明其空间理解能力可泛化至复杂场景。

优势总结

CoMPaSS 的设计具有多项突出优势:

  • 无需额外参数:TENOR 模块不增加模型容量,训练与推理成本几乎不变
  • 计算开销极小:仅在注意力机制中注入位置信息,不影响整体效率
  • 架构无关:适用于 UNet、MMDiT 等主流架构
  • 数据集无关:可集成到任何T2I训练流程中
  • 保持纯文本输入:不依赖边界框、布局图等额外输入,用户体验无缝

应用前景

CoMPaSS 特别适用于对空间精度要求高的场景:

  • 室内设计与家装:根据文本描述生成准确的家具布局图
  • 产品展示与广告:精确控制商品与背景元素的空间关系
  • 教育与可视化:生成符合科学描述的示意图(如“行星在恒星轨道上”)
  • 辅助创作:帮助艺术家快速生成构图准确的草图
© 版权声明

相关文章

暂无评论

none
暂无评论...