去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三种不同的分辨率(224x224、448x448、896x896),为开发者提供了丰富的选择。
今天,谷歌进一步推出了 PaliGemma 2 Mix,这是一个在混合视觉语言任务上进行微调的版本,涵盖 OCR、长短字幕等多种任务。PaliGemma 2 Mix 的发布旨在帮助开发者更好地理解和利用预训练模型在下游任务上的表现。
- 模型:https://huggingface.co/collections/google/paligemma-2-mix-67ac6a251aaf3ee73679dcc4
- Demo:https://huggingface.co/spaces/google/paligemma2-10b-mix

PaliGemma 2 Mix 的主要功能与任务分类
PaliGemma 2 Mix 模型能够完成多种视觉语言任务,可以根据其子任务分为以下几类:
1. 通用视觉-语言相关任务
- 视觉问答:根据图像内容回答问题。
- 指代图像:根据文本描述定位图像中的特定对象。
2. 文档理解
- 信息图表、图表和表格理解:通过视觉问答理解文档中的图表和表格。
3. 图像中的文本识别
- 文本检测:识别图像中的文本内容。
- 字幕生成:为包含文本的图像生成短字幕或长描述。
- 视觉问答:针对包含文本的图像回答问题。
4. 定位相关任务
- 对象检测:在图像中定位对象并返回边界框。
- 图像分割:创建对象的分割掩码,识别对象占据的区域。
提示与任务前缀
在使用 PaliGemma 2 Mix 时,开发者可以使用开放式提示或任务前缀提示。开放式提示通常能获得更好的性能,但任务前缀提示在某些任务中仍然有效。以下是一些常见的提示格式:
通用提示
"caption {lang}"
:生成类似 COCO 的短字幕。"describe {lang}"
:生成更长、更具描述性的字幕。"ocr"
:进行光学字符识别。"answer {lang} {question}"
:回答关于图像内容的问题。"question {lang} {answer}"
:生成针对给定答案的问题。
定位任务
"detect {object description}"
:在图像中定位对象并返回边界框。"segment {object description}; {another object description}"
:分割图像中的对象区域。
不同变体的性能比较
谷歌对 PaliGemma 2 Mix 的不同变体进行了性能评估,以下是部分结果:
1. 通用视觉-语言任务
不同尺寸和分辨率的变体在视觉问答和指代图像任务上表现出色。较大的模型(如 28B)通常在复杂任务上表现更好,而较高的分辨率(如 896x896)则有助于捕捉更多细节。

2. 文档理解
在处理信息图表和表格时,高分辨率变体(如 896x896)能够更准确地理解图像中的文本和结构。

3. 定位任务
在对象检测和图像分割任务中,PaliGemma 2 Mix 的不同变体表现出色。例如,使用提示 "detect {object description}"
,模型能够准确检测图像中的多个对象,即使对象描述较为复杂(如“木棍上的鸟”)。

4. 图像中的文本识别
在文本检测和字幕生成任务中,PaliGemma 2 Mix 能够准确识别图像中的文本内容,并生成相关的字幕描述。

如何开始使用 PaliGemma 2 Mix?
如果您想立即开始使用 PaliGemma 2 Mix,可以参考以下步骤:
- 访问谷歌官方博客或文档:了解最新信息和使用指南。
- 下载预训练模型:根据您的需求选择合适的模型尺寸和分辨率。
- 微调模型:针对您的具体任务对预训练模型进行微调。
- 测试与评估:使用实际数据测试模型性能,并根据需要调整提示或模型参数。