视觉-语言模型中的“隐形损耗”：我们如何测量图像信息的丢失？

158 0

视觉-语言模型（Vision-Language Models, VLMs）如 LLaVA、Qwen-VL 等，在图像理解、视觉问答和图文生成等任务中表现优异。这些模型通常依赖一个核心流程：将图像通过视觉编码器提取特征后，再通过一个“连接器”（projector）映射到语言模型的嵌入空间，实现跨模态对齐。

论文地址：https://arxiv.org/abs/2509.11986
GitHub：https://github.com/lyan62/vlm-info-loss

但在这个看似顺畅的过程中，图像中的部分视觉信息可能在投影阶段悄然丢失。这种“隐形损耗”虽不显眼，却可能直接影响模型的理解能力——比如看不清细节导致回答错误，或遗漏关键区域影响字幕生成。

然而，这一问题长期缺乏系统评估。近期，来自哥本哈根大学、微软和剑桥大学的研究团队发表论文，首次提出一套可量化、可分析视觉-语言模型中信息丢失的方法，为理解这类模型的行为提供了新视角。

为什么信息会丢失？

VLM 的典型架构包含两个主要组件：

视觉编码器（如 CLIP 的 ViT）：负责从图像中提取视觉特征；
投影模块（Projector）：将高维视觉特征转换为语言模型能处理的嵌入表示。

由于语言模型的嵌入空间是为文本设计的，其结构和分布与原始视觉空间存在差异。因此，当视觉特征被强行“压缩”进该空间时，部分语义或几何信息可能发生扭曲甚至丢失。

过去研究多关注最终任务性能，而忽视了这一中间过程的信息保真度。本文填补了这一空白，提出了两种互补的分析方法。

方法一：k-最近邻重叠比率（KNOR）

衡量局部结构是否被保留

该方法关注的是：图像在视觉空间中的“邻居关系”在投影后是否依然成立。

具体步骤如下：

提取每张图像在视觉编码器输出层的嵌入向量；
在原始视觉空间中，计算每个图像的 k 个最近邻；
将所有图像嵌入经过 projector 映射后，再次计算其在目标嵌入空间中的 k 个最近邻；
比较前后两次邻居集合的重叠比例，即 k-NN Overlap Ratio（KNOR）。

解释：若某图像在原始空间中与猫最相似，但在投影后变成了狗的邻居，说明其语义位置发生了偏移——这意味着信息丢失。

发现：

多数模型的 KNOR 值介于 40%–60%，表明近半数的邻域关系已被破坏；
在 SeedBench 验证集上，LLaVA 的 KNOR 达 61.6%（k=100），相对较好；
Qwen2.5-VL 的 KNOR 接近 0，意味着其图像嵌入的局部结构几乎完全重构。

这提示我们：即使模型整体性能良好，也可能以牺牲视觉结构一致性为代价。

方法二：嵌入重构

直接测量信息损失程度，并定位到图像块级别

如果说 KNOR 是间接评估，那么“嵌入重构”则是直接探测信息丢失的“探针”。

做法如下：

训练一个轻量级神经网络，尝试从 projector 输出的嵌入中反向重构出原始视觉嵌入；
使用重构误差（如 MSE）作为信息丢失的度量；
将误差回溯至图像的各个 patch（图像块），生成“信息丢失热图”。

优势：不仅能知道“有没有丢”，还能知道“哪里丢了”。

结果表明：

LLaVA 的平均重构误差最低，说明其 projector 更好地保留了原始视觉信息；
重构误差高的图像块往往对应图像中的边缘区域或纹理复杂部位；
更重要的是，高误差区域与视觉问答任务中的错误答案显著相关。

例如，在 VizWiz Grounding 数据集中，模型未能识别出用户标注的问题区域时，这些区域恰好也是重构误差最高的部分。

信息丢失影响了哪些任务？

研究人员进一步验证了信息丢失对下游任务的实际影响：

任务	影响表现
视觉问答（VQA）	信息丢失严重的图像，模型回答准确率明显下降；错误常源于忽略关键物体或误判属性。
图像检索	使用投影后嵌入进行检索时，在 CUB-200-2011 鸟类数据集上的召回率下降达 15%以上。
图像字幕生成	COCO 和 Flickr30k 实验显示，重构误差越低，生成字幕的 BLEU 和 CIDEr 分数越高。

这些结果共同说明：投影过程不是无损通道，而是潜在瓶颈。