CoMPaSS

尽管当前的文本到图像（Text-to-Image, T2I）扩散模型能够生成高度逼真的图像，但在一个关键任务上仍频频失手：准确理解并渲染文本中描述的空间关系。例如，当用户输入： “一个棕色皮革沙发放...

7个月前

01800