谷歌推出开源视觉语言模型PaliGemma2：增加了强大的视觉能力，更容易微调

多模态模型1年前更新小马良

313 0

今年5月，谷歌推出了PaliGemma，这是 Gemma 家族中的第一个视觉语言模型，旨在使一流的视觉AI更加普及。现在，谷歌自豪地推出 PaliGemma 2，这是一个可调视觉语言模型的最新进化版本。PaliGemma 2 建立在性能卓越的 Gemma 2 模型之上，增加了强大的视觉能力，使其比以往任何时候都更容易进行微调，以实现卓越性能。

PaliGemma 2是对之前PaliGemma模型的升级。PaliGemma 2基于Gemma 2语言模型系列构建，并结合了SigLIP-So400m视觉编码器。这个模型家族覆盖了从2B到27B不同模型大小和224px²、448px²、896px²不同分辨率的模型，旨在通过微调实现广泛的知识迁移。

PaliGemma 2 的新功能

1. 可扩展性能

PaliGemma 2 提供多种模型尺寸和分辨率选项，使用户能够根据具体任务优化性能：

多模型尺寸：提供 3B、10B 和 28B 参数 的模型，满足不同复杂度和计算资源的需求。
多分辨率支持：支持 224px、448px 和 896px 的图像分辨率，确保在不同场景下都能获得最佳效果。

这种灵活性使得 PaliGema 2 能够适应从轻量级移动应用到高性能服务器端部署的各种应用场景。

2. 长篇描述生成

PaliGemma 2 不仅能识别图像中的对象，还能生成详细、上下文相关的描述，超越简单的对象识别。它可以描述图像中的动作、情感以及场景的整体叙事，帮助用户更深入地理解视觉内容。这一功能特别适用于需要丰富文本描述的应用，如图像字幕生成、视觉文档检索和内容创作。

3. 扩展到新领域

谷歌的研究表明，PaliGemma 2 在多个新兴领域表现出色，包括：

化学公式识别：能够准确识别和解释复杂的化学结构。
乐谱识别：可以读取并理解乐谱，甚至生成相应的音频。
空间推理：在处理三维空间关系的任务中表现出色，如机器人导航和虚拟现实。
胸部X光报告生成：能够自动生成详细的医学影像报告，辅助医生进行诊断。

这些领域的突破展示了 PaliGemma 2 的广泛适用性和潜力。

4. 即插即用的升级体验

对于现有的 PaliGemma 用户，升级到 PaliGemma 2 非常简单。它设计为即插即用替换，提供多种模型尺寸，在大多数任务上立即提升性能，而无需进行重大代码修改。此外，其灵活性使得针对特定任务和数据集进行微调变得简单，使您能够根据精确需求定制其能力。

PaliGemma 2 的应用场景

PaliGemma 2 的强大功能使其适用于广泛的领域，以下是一些典型的应用场景：

视觉文档检索：ColPali 利用 PaliGemma 2 在视觉文档检索方面取得了显著进展，能够快速定位和提取关键信息。
实时对象跟踪：PaliGemma 2 的高效视觉处理能力使其成为实时对象跟踪的理想选择，适用于安防监控、自动驾驶等领域。
医学影像分析：通过生成详细的胸部X光报告，PaliGemma 2 可以帮助医生更快速、准确地进行诊断。
创意内容生成：艺术家和设计师可以利用 PaliGemma 2 生成富有创意的图像描述，激发灵感并加速创作过程。

如何开始使用 PaliGemma 2

如果您准备好探索 PaliGemma 2 的潜力，以下是开始的方法：

1. 下载模型和代码

Hugging Face：访问 Hugging Face 下载预训练的 PaliGemma 2 模型和代码。
Kaggle：您还可以在 Kaggle 上找到更多的预训练模型和相关资源。

2. 学习与集成

综合文档：深入阅读谷歌提供的综合文档，了解如何将 PaliGemma 2 集成到您的项目中。
示例笔记本：从谷歌的推理笔记本开始，逐步学习如何使用 PaliGemma 2 进行推理和微调。
微调指南：尝试使用自定义数据集进行微调，以满足特定任务的需求。

3. 使用您喜欢的框架

PaliGemma 2 支持多种流行的开发框架，包括：

Hugging Face Transformers
Keras
PyTorch
JAX
Gemma.cpp

无论您使用哪种工具，都可以轻松集成 PaliGemma 2，充分发挥其潜力。

多模态模型 # PaliGemma2 # 视觉语言模型 # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

谷歌推出新订阅服务Google AI Plus：面向新兴市场，平衡成本与AI能力

谷歌推出新订阅服务Google AI Plus：面向新兴市场，平衡成本与AI能力

早报 # Google AI Plus # 谷歌

7个月前

02000

谷歌NotebookLM现已支持深度研究功能

谷歌NotebookLM现已支持深度研究功能

早报 # NotebookLM # 深度研究 # 谷歌

5个月前

0310

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

多模态模型 # FastVLM # 苹果 # 视觉语言模型

7个月前

0910

谷歌扩大Project Mariner测试范围：AI浏览器代理进入更多Ultra用户

谷歌扩大Project Mariner测试范围：AI浏览器代理进入更多Ultra用户

早报 # Project Mariner # 谷歌

10个月前

01510

暂无评论

none

暂无评论...