LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

图像模型4个月前发布 小马良
149 0

随着生成模型的飞速发展,AI 合成图像已变得越来越逼真。然而,这种进步也带来了严峻挑战:虚假内容泛滥、误导信息传播、数字信任危机加剧。

作为应对,合成图像检测技术应运而生。但当前方法普遍存在三大局限:

  1. 缺乏可解释性:只能判断“是假图”,却说不清“哪里假、为什么假”;
  2. 标注粒度粗糙:多数数据集仅提供图像级标签,缺少像素级定位和语义解释;
  3. 模型用途单一:检测模型止步于“识别”,无法反向指导生成模型改进。

为突破这些瓶颈,上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学与商汤科技联合提出 LEGION(LEarning to Ground and explain for Synthetic Image detectiON)——一种集检测、定位、解释与优化指导于一体的多模态图像伪造分析框架。

同时,团队发布高质量合成图像数据集 SynthScars,填补了细粒度标注的空白,为后续研究提供坚实基础。

LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

SynthScars:专为深度伪造分析设计的高质量数据集

现有伪造检测数据集大多聚焦于图像篡改(如拼接、复制-移动),且生成器过时(如 ProGAN、StyleGAN2)。面对当前主流扩散模型生成的图像,这些数据集已显滞后。

为此,研究团队构建了 SynthScars,一个专为全合成图像分析设计的新数据集,包含 12,236 张由现代生成器创建的 AI 图像,具备以下特点:

1. 内容多样,覆盖四类主体

  • 人类
  • 物体
  • 场景
  • 动物

确保模型在不同语义类别上均具备泛化能力。

2. 伪影分类系统化

定义三类典型伪影:

类别示例
物理类光照方向不一致、阴影错位、反射违反物理规律
失真类颜色异常、纹理模糊、边缘锯齿
结构类手指数量错误、肢体比例失调、文字扭曲

这些伪影往往需要全局推理才能识别,而非简单依赖局部边界。

3. 细粒度三重标注

每张图像均配备:

  • 像素级分割掩码:精确标注伪影区域;
  • 文本解释:由专家撰写,描述问题成因(如“右侧窗户在墙上的反射形状不合理”);
  • 伪影类别标签:支持多任务联合训练。

这种多维度标注使模型不仅能“看到”问题,还能“说出”问题。

4. 聚焦高风险、高迷惑性图像

剔除卡通、水彩等艺术风格图像,专注于人类难以分辨的逼真合成图,提升数据集的实际防御价值。

LEGION:不只是检测器,更是“图像医生”

LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

LEGION 基于多模态大语言模型(MLLM)构建,具备四项核心能力:

1. 全局真实性判断

使用 ViT-H/14 CLIP 编码图像,通过 [CLS] token 判断图像是否为合成。

2. 像素级伪影定位

  • 利用预训练 SAM 编码器提取图像嵌入;
  • 结合 MLLM 输出的语义线索,通过轻量化解码器生成像素级掩码;
  • 实现“哪里假”的精准定位。

3. 自然语言解释生成

  • MLLM 接收图像与检测结果,生成如下的解释:

    “图中人物左手小指出现额外关节,且与右手不对称,属于结构类伪影,可能由生成模型对手部解剖结构理解不足导致。”

这种解释不仅描述现象,还尝试归因,提升可信度与可用性。

4. 作为控制器指导图像优化

这是 LEGION 的创新延伸:它不仅能“诊断”,还能“开药方”。

团队构建了两条优化流水线:

(1)再生(Regeneration)流水线
  • 提取 LEGION 的文本解释;
  • 自动修订原始提示词(如增加“手指结构自然”“光照一致”等约束);
  • 调用 T2I 模型重新生成;
  • 多轮迭代直至伪影消除。
(2)修补(Inpainting)流水线
  • 保留非伪影区域;
  • 仅对 LEGION 标注的伪影区域进行局部修复;
  • 利用解释文本作为修补提示,确保语义一致。

这种方式在保留原始构图的同时提升真实感。

实验表现:全面领先

1. 伪影定位能力(mIoU / F1)

模型SynthScars mIoUF1
PAL4VST(最强专家模型)56.1026.31
LEGION59.41(+3.31)36.96(+10.65)

LEGION 在像素级定位上显著优于传统专家模型,在 LOKI 和 RichHF-18K 上也表现出良好泛化性。

更关键的是,一些通用 MLLM(如 Ferret、Qwen2-VL)存在“全图报警”或“完全漏检”的极端行为,而 LEGION 输出稳定、边界清晰。

2. 文本解释质量(ROUGE-L / CSS)

模型ROUGE-L ↑CSS ↑
GPT-4o38.241.5
DeepSeek-VL236.840.1
LLaVA-v1.639.042.3
LEGION41.744.8

LEGION 以 8B 参数规模,在语义连贯性与上下文保真度上超越多数更大模型,且避免了冗长重复问题。

3. 图像优化效果(HPS 提升)

在 200 张测试图像上进行多轮优化实验:

流水线平均 HPS 提升
再生+6.98%
修补+2.14%

人类评估显示,优化后图像在真实感、细节合理性方面均有明显改善。

检测泛化性:跨生成器鲁棒性强

在 UniversalFakeDetect 基准上测试跨生成器检测能力,LEGION 在多种生成器(GANs、CRN、IMLE 等)上均取得领先或次优准确率,表明其不依赖特定生成机制,具备广泛适用性。

© 版权声明

相关文章

暂无评论

none
暂无评论...