谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

242 0

去年 12 月5日，谷歌发布了 PaliGemma 2，这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型（VLM）系列。这些模型提供了三种不同的尺寸（3B、10B、28B）和三种不同的分辨率（224x224、448x448、896x896），为开发者提供了丰富的选择。

相关：谷歌推出开源视觉语言模型PaliGemma2：增加了强大的视觉能力，更容易微调

今天，谷歌进一步推出了 PaliGemma 2 Mix，这是一个在混合视觉语言任务上进行微调的版本，涵盖 OCR、长短字幕等多种任务。PaliGemma 2 Mix 的发布旨在帮助开发者更好地理解和利用预训练模型在下游任务上的表现。

模型：https://huggingface.co/collections/google/paligemma-2-mix-67ac6a251aaf3ee73679dcc4
Demo：https://huggingface.co/spaces/google/paligemma2-10b-mix

PaliGemma 2 Mix 的主要功能与任务分类

PaliGemma 2 Mix 模型能够完成多种视觉语言任务，可以根据其子任务分为以下几类：

1. 通用视觉-语言相关任务

视觉问答：根据图像内容回答问题。
指代图像：根据文本描述定位图像中的特定对象。

2. 文档理解

信息图表、图表和表格理解：通过视觉问答理解文档中的图表和表格。

3. 图像中的文本识别

文本检测：识别图像中的文本内容。
字幕生成：为包含文本的图像生成短字幕或长描述。
视觉问答：针对包含文本的图像回答问题。

4. 定位相关任务

对象检测：在图像中定位对象并返回边界框。
图像分割：创建对象的分割掩码，识别对象占据的区域。

提示与任务前缀

在使用 PaliGemma 2 Mix 时，开发者可以使用开放式提示或任务前缀提示。开放式提示通常能获得更好的性能，但任务前缀提示在某些任务中仍然有效。以下是一些常见的提示格式：

通用提示

"caption {lang}"：生成类似 COCO 的短字幕。
"describe {lang}"：生成更长、更具描述性的字幕。
"ocr"：进行光学字符识别。
"answer {lang} {question}"：回答关于图像内容的问题。
"question {lang} {answer}"：生成针对给定答案的问题。

定位任务

"detect {object description}"：在图像中定位对象并返回边界框。
"segment {object description}; {another object description}"：分割图像中的对象区域。

不同变体的性能比较

谷歌对 PaliGemma 2 Mix 的不同变体进行了性能评估，以下是部分结果：

1. 通用视觉-语言任务

不同尺寸和分辨率的变体在视觉问答和指代图像任务上表现出色。较大的模型（如 28B）通常在复杂任务上表现更好，而较高的分辨率（如 896x896）则有助于捕捉更多细节。

2. 文档理解

在处理信息图表和表格时，高分辨率变体（如 896x896）能够更准确地理解图像中的文本和结构。

3. 定位任务

在对象检测和图像分割任务中，PaliGemma 2 Mix 的不同变体表现出色。例如，使用提示 "detect {object description}"，模型能够准确检测图像中的多个对象，即使对象描述较为复杂（如“木棍上的鸟”）。

4. 图像中的文本识别

在文本检测和字幕生成任务中，PaliGemma 2 Mix 能够准确识别图像中的文本内容，并生成相关的字幕描述。

如何开始使用 PaliGemma 2 Mix？

如果您想立即开始使用 PaliGemma 2 Mix，可以参考以下步骤：

访问谷歌官方博客或文档：了解最新信息和使用指南。
下载预训练模型：根据您的需求选择合适的模型尺寸和分辨率。
微调模型：针对您的具体任务对预训练模型进行微调。
测试与评估：使用实际数据测试模型性能，并根据需要调整提示或模型参数。

文章版权归作者所有，未经允许请勿转载。

谷歌升级AI购物功能：对话式搜索、代理结账+AI代客致电，简化假日购物流程

早报 # 谷歌

5个月前

0820

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

多模态模型 # Seed GR-3 # 字节跳动

8个月前

01950

DeepSeek-OCR-V2：用 LLM 替代 CLIP，让 OCR 学会“像人一样阅读”

多模态模型 # DeepSeek-OCR-V2 # OCR模型

2个月前

0600

谷歌 AI 模式新增“个人智能”：可调用 Gmail 与相册数据提供定制回复

早报 # AI 模式 # Gmail # 个人智能

2个月前

0180

暂无评论

暂无评论...

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

PaliGemma 2 Mix 的主要功能与任务分类

1. 通用视觉-语言相关任务

2. 文档理解

3. 图像中的文本识别

4. 定位相关任务

提示与任务前缀

通用提示

定位任务

不同变体的性能比较

1. 通用视觉-语言任务

2. 文档理解

3. 定位任务

4. 图像中的文本识别

如何开始使用 PaliGemma 2 Mix？

让大语言模型“看懂”图形界面！微软推出 OmniParser V2.0：将大语言模型转化为 GUI 交互智能体

谷歌发布多语言视觉语言编码器SigLIP 2

相关文章

谷歌升级AI购物功能：对话式搜索、代理结账+AI代客致电，简化假日购物流程

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

DeepSeek-OCR-V2：用 LLM 替代 CLIP，让 OCR 学会“像人一样阅读”

谷歌 AI 模式新增“个人智能”：可调用 Gmail 与相册数据提供定制回复

暂无评论

文章

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

新阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

ComfyUI 动态显存革命：告别显存不足，让 56GB 模型在 32GB 显存上丝滑运行

Cursor 推出 Composer 模型：让 AI 学会“自我总结”，轻松搞定长周期编程

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

PaliGemma 2 Mix 的主要功能与任务分类

1. 通用视觉-语言相关任务

2. 文档理解

3. 图像中的文本识别

4. 定位相关任务

提示与任务前缀

通用提示

定位任务

不同变体的性能比较

1. 通用视觉-语言任务

2. 文档理解

3. 定位任务

4. 图像中的文本识别

如何开始使用 PaliGemma 2 Mix？

让大语言模型“看懂”图形界面！微软推出 OmniParser V2.0：将大语言模型转化为 GUI 交互智能体

谷歌发布多语言视觉语言编码器SigLIP 2

相关文章

文章

标签云

网址

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧