尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。
例如,当用户输入:
“一个棕色皮革沙发放在高书架的左边,复古台灯在精装书旁,墙钟挂在陶瓷花瓶上方,一只睡猫躺在编织篮子里。”
传统模型可能将沙发置于书架“后面”,台灯“压在”书上,或让墙钟与花瓶“重叠”——这些错误暴露了模型对“左”、“旁”、“上”、“内”等空间语义的理解不足。
- 项目主页:https://compass.blurgy.xyz
- GitHub:https://github.com/blurgyy/CoMPaSS
- 模型:https://huggingface.co/blurgy
为解决这一问题,浙江大学、vivo 和蚂蚁集团的研究人员联合推出 CoMPaSS(Comprehensive Method for Positional and Spatial Synthesis),一个通用、轻量、无需额外参数的训练框架,显著增强T2I模型的空间理解能力。

问题根源:数据模糊与语义丢失
研究团队指出,T2I模型在空间关系上的失败,源于两个根本性问题:
- 训练数据的空间模糊性
现有图文对数据集中,大量描述如“一只狗在车旁”缺乏明确的空间定义——“旁”是左?右?前?距离多远?这种模糊性导致模型难以学习精确的空间先验。 - 文本编码器的顺序信息丢失
当前T2I模型使用的文本编码器(如CLIP)在提取特征时,往往弱化了词序信息。而“猫在篮子里”与“篮子在猫里面”语义截然不同,词序至关重要。
CoMPaSS 正是从这两个层面入手,提出系统性解决方案。
核心创新:SCOP + TENOR
1. SCOP 数据引擎:构建空间清晰的训练数据
SCOP(Spatial Constraints-Oriented Pairing)是一个自动化数据筛选与重构引擎,旨在从现有数据中提取出空间关系明确的高质量图文对。
其工作流程分为三步:
- 关系推理:利用目标检测与空间分析,识别图像中所有对象对及其相对位置(左/右/上/下/内/旁等)。
- 空间约束过滤:应用五项原则筛选清晰关系:
- 视觉显著性:对象在图像中清晰可见
- 语义区分:对象类别不同,避免混淆
- 空间清晰度:位置关系明确,无遮挡或歧义
- 最小重叠:对象不严重重叠
- 大小平衡:避免极小对象主导关系
- 关系解码:将符合条件的对象对裁剪为局部图像,并生成精准描述(如“沙发在书架左侧”),用于模型训练。
通过SCOP,CoMPaSS构建了一个“空间干净”的子数据集,引导模型学习更精确的空间映射。
2. TENOR 模块:保留文本顺序语义
TENOR(Token ENcoding ORdering)是一个即插即用的轻量模块,旨在强化文本编码中的词序信息。
其核心思想是:在交叉注意力机制中,显式注入文本标记的绝对位置编码。
- 对于 UNet 架构:将位置编码添加到每个文本-图像注意力层的 键(K)向量中
- 对于 MMDiT 架构:将位置编码注入 文本查询(Qtext)和键(Ktext) 向量
这一设计确保模型在生成图像时,能持续感知“哪个词在前,哪个词在后”,从而更准确地解析“左”、“右”、“上”、“内”等依赖顺序的空间描述。
✅ TENOR 不引入额外可训练参数,仅在注意力计算中微调,推理开销极小。
实验结果:显著提升,广泛适用
CoMPaSS 在四个主流开源 T2I 模型上进行了验证,涵盖 UNet 与 MMDiT 两种架构,证明其通用性。
在多个空间理解基准测试中表现卓越:
| 基准 | 模型 | 相对提升 |
|---|---|---|
| VISOR | FLUX.1 | +98% |
| T2I-CompBench Spatial | 多模型平均 | +67% |
| GenEval Position | 多模型平均 | +131% |
此外,在 DPG-Bench 上,CoMPaSS 增强模型在长文本提示下的整体得分更高,表明其空间理解能力可泛化至复杂场景。
优势总结
CoMPaSS 的设计具有多项突出优势:
- 无需额外参数:TENOR 模块不增加模型容量,训练与推理成本几乎不变
- 计算开销极小:仅在注意力机制中注入位置信息,不影响整体效率
- 架构无关:适用于 UNet、MMDiT 等主流架构
- 数据集无关:可集成到任何T2I训练流程中
- 保持纯文本输入:不依赖边界框、布局图等额外输入,用户体验无缝
应用前景
CoMPaSS 特别适用于对空间精度要求高的场景:
- 室内设计与家装:根据文本描述生成准确的家具布局图
- 产品展示与广告:精确控制商品与背景元素的空间关系
- 教育与可视化:生成符合科学描述的示意图(如“行星在恒星轨道上”)
- 辅助创作:帮助艺术家快速生成构图准确的草图















