全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

CLIP(对比语言-图像预训练)是 OpenAI 开发的一种多模态模型,通过对比学习在大量图像-文本对上训练,将图像和文本嵌入到同一个共享空间中,便于零样本任务。然而,CLIP 在处理全局信息时存在一个关键问题:它倾向于将全局信息存储在局部视觉补丁中,导致热图误导性强,影响某些任务的性能。

全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

为了解决这一问题,开发者zer0int提出了一种新的架构改进方案 CLIP-fine-tune-registers-gated。通过添加寄存器令牌和门控机制,该项目显著降低了 CLIP 的模式差距(从 0.8276 降至 0.4740),并提升了模型在多模态任务中的表现。

技术细节与改进

项目基于 OpenAI 的 ViT-L/14 模型(视觉变换器,大型,补丁大小 14),进行了以下关键修改:

  1. 寄存器令牌
    添加了 4 个寄存器令牌,用于捕获全局信息,从而减轻局部补丁的负担。这些寄存器令牌的范数远大于普通补丁令牌(普通补丁范数通常 <80,而寄存器令牌 >100),能够有效区分全局和局部信息。
  2. 门控机制
    在每层加入了带 ReLU 激活的 MLP,作为门控机制,控制信息流。这允许模型选择性地整合来自不同来源的信息。
  3. 最终融合 MLP
    在模型输出前加入一个融合 MLP,整合寄存器令牌和补丁令牌的特征。

这些改进使总参数量从约 4.3 亿增加到 4.5 亿,但性能提升显著。

全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

性能提升

项目提供了详细的性能指标,比较了修改后的模型(REG-XGATED)与原版 CLIP(ViT-L/14 OpenAI)在多个任务上的表现。以下是关键结果:

任务 / 数据集指标ViT-L/14 OpenAIX-GATED (ckpt20 xtreme)X-GATED (ckpt12 balanced)X-GATED (ckpt12 balanced, ablated)
VoC-2007 (多标签)mAP0.76150.81400.84710.8247
MSCOCO 检索图像 Recall@50.21940.35650.35320.3349
文本 Recall@50.30340.54250.52780.5086
线性探针 CIFAR-10Acc@10.95350.98130.98130.9811
Acc@50.99660.99970.99970.9997
MVT ImageNet/ObjectNet (零样本)准确率0.84530.86860.88300.8815
线性探针 ILSVRC2012Top-169.86%66.43%67.10%68.99%
Top-592.70%91.52%91.83%92.64%
模式差距指标欧几里得差距 ↓0.82760.47400.53950.7486

从表中可以看出,REG-XGATED 模型在多标签分类、图像-文本检索和零样本分类任务上表现优于原版 CLIP,尤其是在模式差距指标上显著改善。然而,在 ILSVRC2012 的线性探针任务上,Top-1 准确性略有下降,这可能是由于模型在某些特定任务上对局部特征的依赖减少。

全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

模式差距的意义

模式差距(modality gap)衡量图像和文本嵌入分布的差异。较低的模式差距意味着两种模态的表示更一致,有助于提升零样本学习和跨模态检索的性能。项目报告的欧几里得差距从 0.8276 降至 0.4740(ckpt20),JSD 和瓦瑟斯坦距离也有显著降低,表明改进方案非常有效。

实用资源与应用

项目提供了两个检查点(checkpoint)的文本编码器下载:

  • 推荐平衡版本 ckpt12:ViT-L-14-REG-TE-only-balanced-HF-format-ckpt12
  • 更低模式差距 ckpt20:ViT-L-14-REG-TE-only-xtreme-HF-format-ckpt20

这些文本编码器可以直接用于文本到图像/视频的 AI 应用,用户还可以使用项目提供的工具自定义细调模型,从初始寄存器令牌设置开始。

兼容性与局限性

需要注意的是,全模型不完全兼容 Hugging Face Transformers 库,建议使用 OpenAI 的 import clip 结构。文本编码器则为标准 CLIP 文本编码器,易于集成。

尽管性能在大多数任务上提升,但在线性探针任务(如 ILSVRC2012)上略有下降。这可能反映了模型在某些特定任务上的权衡,值得用户在选择时考虑。

© 版权声明

相关文章

暂无评论

none
暂无评论...