在个性化图像生成任务中,我们常常希望将多个参考主体(如人物、动物、物体)的特征融合到一张新图像中——例如,“让A的脸型、B的发型、C的表情和D的服饰出现在同一人身上”。这类任务被称为多主体个性化生成(Multi-Subject Personalized Generation)。
然而,现有方法在处理三个以上参考主体时,普遍存在两大问题:
- 身份混杂:A的鼻子“长”到了B的脸上;
- 属性泄露:某个主体的纹理或姿态错误地迁移到其他区域。
根本原因在于:模型缺乏对“谁对应哪里”的精确语义理解。
为此,字节跳动、浙江大学与香港科技大学联合提出 MOSAIC ——一个以表示为中心的多主体生成框架。它通过显式语义对齐与正交特征解耦两大机制,在表示层面实现精准控制,显著提升身份保真度与语义一致性。
更关键的是,MOSAIC 在处理 4个及以上参考主体 时仍保持高稳定性,突破了当前方法的瓶颈。

核心挑战:多主体生成为何难?
当输入多个参考图像时,扩散模型通常依赖交叉注意力机制将参考特征注入生成过程。但默认做法存在两个缺陷:
- 无对齐监督:模型不知道参考图像中的“眼睛”应映射到目标图像的哪个位置;
- 共享表示空间:所有主体共用同一注意力空间,导致特征纠缠与干扰。
结果是:生成图像看似合理,实则细节错乱——这在需要高精度身份保留的应用中不可接受。
MOSAIC 的核心洞察是:
多主体生成的关键不是“融合”,而是“定位 + 隔离”。
MOSAIC 框架:两大核心技术
1. 语义对应注意力损失(SCAL):实现点对点对齐
MOSAIC 引入了 语义对应注意力损失(Semantic Correspondence Attention Loss, SCAL),强制模型建立从参考图像到目标图像的细粒度空间映射。
具体做法:
- 在参考图像和生成图像之间标注关键语义点(如左眼眼角、鼻尖、嘴角等);
- 监督交叉注意力权重,使其在生成过程中“聚焦”于正确的对应区域。
✅ 效果:确保“A的眼睛”只影响“A对应的区域”,不会扩散到其他部位。
🔍 这是首次在多主体生成中引入显式语义对应监督。
2. 多参考解耦损失(MDL):推动特征进入正交子空间
为防止不同主体的特征相互干扰,MOSAIC 提出 多参考解耦损失(Multi-Reference Disentanglement Loss, MDL):
- 计算每个参考主体在注意力空间中的分布向量;
- 最大化不同主体之间的分布差异,推动它们进入正交的注意力子空间。
✅ 效果:每个主体的特征独立编码,互不干扰,保留个体独特性。

数据基础:SemAlign-MS ——首个大规模语义对应数据集
要训练 SCAL 和 MDL,必须有高质量的语义对应标注。然而,此前该领域并无可用数据集。
为此,团队构建了 SemAlign-MS,一个包含 120万对图像-参考组合 的大规模数据集,每对均标注了细粒度语义对应关系。
数据构建流程:
- 使用 GPT-4o 自动生成包含多个主体的多样化文本提示;
- 通过 T2I 模型生成目标图像;
- 利用 LangSAM 进行主体检测与分割;
- 借助 FLUX Kontext 实现视角校正,确保空间一致性;
- 最后通过自动化匹配算法建立像素级语义对应。
✅ SemAlign-MS 成为多主体生成任务的重要基础设施,已公开供社区使用。
工作流程概览
- 输入:多张参考图像 + 文本提示
- 编码:使用预训练图像编码器提取各参考图像的潜在表示
- 对齐监督:SCAL 损失强制注意力聚焦于正确语义位置
- 解耦控制:MDL 损失推动各主体进入正交注意力空间
- 生成:在扩散过程中逐步合成融合图像,保持身份独立与语义一致
整个框架兼容主流扩散架构(如Stable Diffusion),可端到端训练。
实验结果:全面领先,支持复杂场景
1. 多主体生成性能(DreamBench)
| 方法 | CLIP-I ↑ | CLIP-T ↑ | DINO ↑ |
|---|---|---|---|
| UNO | 79.21 | 30.12 | 52.31 |
| DreamO | 80.03 | 30.88 | 54.02 |
| MOSAIC | 84.30 | 31.64 | 77.40(单主体) |
| MOSAIC(4+主体) | 76.30 | 32.40 | 56.83 |
✅ 在单主体和多主体设置下均达到SOTA,尤其在DINO指标(衡量身份相似性)上优势显著。
2. 跨数据集泛化能力(XVerseBench)
| 方法 | 平均得分 |
|---|---|
| XVerse | 73.40 |
| MOSAIC | 76.04 |
在更具挑战性的跨域测试中仍保持领先。
3. 高主体数稳定性
| 主体数量 | MOSAIC表现 |
|---|---|
| 2–3 | 显著优于基线 |
| 4+ | 仍保持高保真,无明显退化 |
📌 这是首个在4个以上参考主体下仍稳定的多主体生成方法。















