LEGION：一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

155 0

随着生成模型的飞速发展，AI 合成图像已变得越来越逼真。然而，这种进步也带来了严峻挑战：虚假内容泛滥、误导信息传播、数字信任危机加剧。

作为应对，合成图像检测技术应运而生。但当前方法普遍存在三大局限：

缺乏可解释性：只能判断“是假图”，却说不清“哪里假、为什么假”；
标注粒度粗糙：多数数据集仅提供图像级标签，缺少像素级定位和语义解释；
模型用途单一：检测模型止步于“识别”，无法反向指导生成模型改进。

为突破这些瓶颈，上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学与商汤科技联合提出 LEGION（LEarning to Ground and explain for Synthetic Image detectiON）——一种集检测、定位、解释与优化指导于一体的多模态图像伪造分析框架。

项目主页：https://opendatalab.github.io/LEGION/
GitHub：https://github.com/opendatalab/LEGION
数据：https://huggingface.co/datasets/khr0516/SynthScars

同时，团队发布高质量合成图像数据集 SynthScars，填补了细粒度标注的空白，为后续研究提供坚实基础。

SynthScars：专为深度伪造分析设计的高质量数据集

现有伪造检测数据集大多聚焦于图像篡改（如拼接、复制-移动），且生成器过时（如 ProGAN、StyleGAN2）。面对当前主流扩散模型生成的图像，这些数据集已显滞后。

为此，研究团队构建了 SynthScars，一个专为全合成图像分析设计的新数据集，包含 12,236 张由现代生成器创建的 AI 图像，具备以下特点：

1. 内容多样，覆盖四类主体

人类
物体
场景
动物

确保模型在不同语义类别上均具备泛化能力。

2. 伪影分类系统化

定义三类典型伪影：

类别	示例
物理类	光照方向不一致、阴影错位、反射违反物理规律
失真类	颜色异常、纹理模糊、边缘锯齿
结构类	手指数量错误、肢体比例失调、文字扭曲

这些伪影往往需要全局推理才能识别，而非简单依赖局部边界。

3. 细粒度三重标注

每张图像均配备：

像素级分割掩码：精确标注伪影区域；
文本解释：由专家撰写，描述问题成因（如“右侧窗户在墙上的反射形状不合理”）；
伪影类别标签：支持多任务联合训练。

这种多维度标注使模型不仅能“看到”问题，还能“说出”问题。

4. 聚焦高风险、高迷惑性图像

剔除卡通、水彩等艺术风格图像，专注于人类难以分辨的逼真合成图，提升数据集的实际防御价值。

LEGION：不只是检测器，更是“图像医生”

LEGION 基于多模态大语言模型（MLLM）构建，具备四项核心能力：

1. 全局真实性判断

使用 ViT-H/14 CLIP 编码图像，通过 [CLS] token 判断图像是否为合成。

2. 像素级伪影定位

利用预训练 SAM 编码器提取图像嵌入；
结合 MLLM 输出的语义线索，通过轻量化解码器生成像素级掩码；
实现“哪里假”的精准定位。

3. 自然语言解释生成

MLLM 接收图像与检测结果，生成如下的解释：
“图中人物左手小指出现额外关节，且与右手不对称，属于结构类伪影，可能由生成模型对手部解剖结构理解不足导致。”

这种解释不仅描述现象，还尝试归因，提升可信度与可用性。

4. 作为控制器指导图像优化

这是 LEGION 的创新延伸：它不仅能“诊断”，还能“开药方”。

团队构建了两条优化流水线：

（1）再生（Regeneration）流水线

提取 LEGION 的文本解释；
自动修订原始提示词（如增加“手指结构自然”“光照一致”等约束）；
调用 T2I 模型重新生成；
多轮迭代直至伪影消除。

（2）修补（Inpainting）流水线

保留非伪影区域；
仅对 LEGION 标注的伪影区域进行局部修复；
利用解释文本作为修补提示，确保语义一致。

这种方式在保留原始构图的同时提升真实感。

实验表现：全面领先

1. 伪影定位能力（mIoU / F1）

模型	SynthScars mIoU	F1
PAL4VST（最强专家模型）	56.10	26.31
LEGION	59.41（+3.31）	36.96（+10.65）

LEGION 在像素级定位上显著优于传统专家模型，在 LOKI 和 RichHF-18K 上也表现出良好泛化性。

更关键的是，一些通用 MLLM（如 Ferret、Qwen2-VL）存在“全图报警”或“完全漏检”的极端行为，而 LEGION 输出稳定、边界清晰。

2. 文本解释质量（ROUGE-L / CSS）

模型	ROUGE-L ↑	CSS ↑
GPT-4o	38.2	41.5
DeepSeek-VL2	36.8	40.1
LLaVA-v1.6	39.0	42.3
LEGION	41.7	44.8

LEGION 以 8B 参数规模，在语义连贯性与上下文保真度上超越多数更大模型，且避免了冗长重复问题。

3. 图像优化效果（HPS 提升）

在 200 张测试图像上进行多轮优化实验：

流水线	平均 HPS 提升
再生	+6.98%
修补	+2.14%

人类评估显示，优化后图像在真实感、细节合理性方面均有明显改善。

检测泛化性：跨生成器鲁棒性强

在 UniversalFakeDetect 基准上测试跨生成器检测能力，LEGION 在多种生成器（GANs、CRN、IMLE 等）上均取得领先或次优准确率，表明其不依赖特定生成机制，具备广泛适用性。

图像模型 # LEGION # 多模态分析框架

文章版权归作者所有，未经允许请勿转载。

文生图模型新架构MoA：根据用户的个性化需求生成包含特定人物的图像，同时保持原有模型的风格和多样性

图像模型 # MoA # 文生图模型

1年前

09950

中国多所高校联合推出 DeepGen 1.0：50 亿参数小模型逆袭，图像生成与编辑能力媲美 800 亿巨无霸

图像模型 # DeepGen 1.0 # 多模态模型

1个月前

0700

用于定制漫画生成的新框架DiffSensei：将多模态大语言模型和扩散模型结合起来，以实现对漫画角色形象和布局的精确控制

图像模型 # DiffSensei # 定制漫画

1年前

03270

阿里DiffSynth-Studio 项目组推出Z-Image-i2L：从单张图像一键生成风格 LoRA

图像模型 # DiffSynth-Studio # Z-Image-i2L

2个月前

01710

暂无评论

暂无评论...