MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

图像模型3个月前发布 小马良
136 0

在个性化图像生成任务中,我们常常希望将多个参考主体(如人物、动物、物体)的特征融合到一张新图像中——例如,“让A的脸型、B的发型、C的表情和D的服饰出现在同一人身上”。这类任务被称为多主体个性化生成(Multi-Subject Personalized Generation)。

然而,现有方法在处理三个以上参考主体时,普遍存在两大问题:

  • 身份混杂:A的鼻子“长”到了B的脸上;
  • 属性泄露:某个主体的纹理或姿态错误地迁移到其他区域。

根本原因在于:模型缺乏对“谁对应哪里”的精确语义理解。

为此,字节跳动、浙江大学与香港科技大学联合提出 MOSAIC ——一个以表示为中心的多主体生成框架。它通过显式语义对齐正交特征解耦两大机制,在表示层面实现精准控制,显著提升身份保真度与语义一致性。

更关键的是,MOSAIC 在处理 4个及以上参考主体 时仍保持高稳定性,突破了当前方法的瓶颈。

MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

核心挑战:多主体生成为何难?

当输入多个参考图像时,扩散模型通常依赖交叉注意力机制将参考特征注入生成过程。但默认做法存在两个缺陷:

  1. 无对齐监督:模型不知道参考图像中的“眼睛”应映射到目标图像的哪个位置;
  2. 共享表示空间:所有主体共用同一注意力空间,导致特征纠缠与干扰。

结果是:生成图像看似合理,实则细节错乱——这在需要高精度身份保留的应用中不可接受。

MOSAIC 的核心洞察是:

多主体生成的关键不是“融合”,而是“定位 + 隔离”

MOSAIC 框架:两大核心技术

1. 语义对应注意力损失(SCAL):实现点对点对齐

MOSAIC 引入了 语义对应注意力损失(Semantic Correspondence Attention Loss, SCAL),强制模型建立从参考图像到目标图像的细粒度空间映射

具体做法:

  • 在参考图像和生成图像之间标注关键语义点(如左眼眼角、鼻尖、嘴角等);
  • 监督交叉注意力权重,使其在生成过程中“聚焦”于正确的对应区域。

✅ 效果:确保“A的眼睛”只影响“A对应的区域”,不会扩散到其他部位。

🔍 这是首次在多主体生成中引入显式语义对应监督

2. 多参考解耦损失(MDL):推动特征进入正交子空间

为防止不同主体的特征相互干扰,MOSAIC 提出 多参考解耦损失(Multi-Reference Disentanglement Loss, MDL):

  • 计算每个参考主体在注意力空间中的分布向量;
  • 最大化不同主体之间的分布差异,推动它们进入正交的注意力子空间

✅ 效果:每个主体的特征独立编码,互不干扰,保留个体独特性。

MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

数据基础:SemAlign-MS ——首个大规模语义对应数据集

要训练 SCAL 和 MDL,必须有高质量的语义对应标注。然而,此前该领域并无可用数据集。

为此,团队构建了 SemAlign-MS,一个包含 120万对图像-参考组合 的大规模数据集,每对均标注了细粒度语义对应关系。

数据构建流程:

  1. 使用 GPT-4o 自动生成包含多个主体的多样化文本提示;
  2. 通过 T2I 模型生成目标图像;
  3. 利用 LangSAM 进行主体检测与分割;
  4. 借助 FLUX Kontext 实现视角校正,确保空间一致性;
  5. 最后通过自动化匹配算法建立像素级语义对应。

✅ SemAlign-MS 成为多主体生成任务的重要基础设施,已公开供社区使用。

工作流程概览

  1. 输入:多张参考图像 + 文本提示
  2. 编码:使用预训练图像编码器提取各参考图像的潜在表示
  3. 对齐监督:SCAL 损失强制注意力聚焦于正确语义位置
  4. 解耦控制:MDL 损失推动各主体进入正交注意力空间
  5. 生成:在扩散过程中逐步合成融合图像,保持身份独立与语义一致

整个框架兼容主流扩散架构(如Stable Diffusion),可端到端训练。

实验结果:全面领先,支持复杂场景

1. 多主体生成性能(DreamBench)

方法CLIP-I ↑CLIP-T ↑DINO ↑
UNO79.2130.1252.31
DreamO80.0330.8854.02
MOSAIC84.3031.6477.40(单主体)
MOSAIC(4+主体)76.3032.4056.83

✅ 在单主体和多主体设置下均达到SOTA,尤其在DINO指标(衡量身份相似性)上优势显著。

2. 跨数据集泛化能力(XVerseBench)

方法平均得分
XVerse73.40
MOSAIC76.04

在更具挑战性的跨域测试中仍保持领先。

3. 高主体数稳定性

主体数量MOSAIC表现
2–3显著优于基线
4+仍保持高保真,无明显退化

📌 这是首个在4个以上参考主体下仍稳定的多主体生成方法。

© 版权声明

相关文章

暂无评论

none
暂无评论...