谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型

自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本。谷歌在开发过程中充分听取了社区反馈,并添加了最受欢迎的功能,例如更长的上下文、多模态支持等。

谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型

Gemma 3 的新功能

多模态支持

Gemma 3 引入了多模态支持,能够处理视觉-语言输入并生成文本输出。它不仅能处理图片和文本数据,还能将视觉输入转换为文本输出,适用于解读图片数据、识别对象、提取文本信息等多种任务。谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型

128K 令牌上下文窗口

Gemma 3 的输入上下文窗口扩大到 128,000 个令牌,比之前的版本大了 16 倍。这使得模型能够处理更复杂的数据分析任务,例如多篇多页文章、篇幅较大的单篇文章或数百张图片。

广泛的语言支持

Gemma 3 支持超过 140 种语言,让使用者能够以自己的母语进行操作,或扩展 AI 应用的语言功能。这一特性使得模型能够处理更多视觉和文本任务,满足全球用户的需求。

灵活的模型规模和精度

Gemma 3 提供四种规模(1B、4B、12B 和 27B),以及从 32 位全精度到 4 位最低精度的五种精度级别。开发者可以根据任务需求和计算资源选择最适合的模型规模和精度,实现性能与效率的平衡。

谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型

改进的数学、推理和对话能力

Gemma 3 在数学、推理和对话能力上进行了显著提升,支持结构化输出和函数调用。它能够更好地处理复杂的推理任务和对话场景,为开发者提供更强大的工具。

Gemma 3 的构建过程

Gemma 3 的预训练和后训练过程通过蒸馏、强化学习和模型合并的组合进行了优化。具体来说:

  • 蒸馏:从更大的指令模型蒸馏到 Gemma 3 预训练检查点。
  • 人类反馈的强化学习(RLHF):使模型预测与人类偏好对齐。
  • 机器反馈的强化学习(RLMF):增强数学推理能力。
  • 执行反馈的强化学习(RLEF):提升编码能力。

这些优化显著提升了模型在数学、编码和指令遵循方面的能力,使其成为 LMArena 中得分 1338 的顶级开源紧凑模型。

谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型

多模态能力

Gemma 3 集成了基于 SigLIP 的视觉编码器,能够处理图像和视频输入。它可以在训练期间保持视觉模型冻结,并通过自适应窗口算法处理高分辨率和非方形图像。这使得 Gemma 3 能够分析图像、回答关于图像的问题、比较图像、识别物体,甚至回复图像中的文本。

开始使用 Gemma 3

无论您是希望直接实验,还是将 Gemma 3 集成到现有项目中,以下是一些快速上手的方法:

  • 直接实验:通过 Google AI Studio 快速试用 Gemma 3。
  • 下载模型:在 Hugging Face Kaggle 上找到模型权重。
  • 学习与整合:深入了解技术报告全面文档,快速将 Gemma 集成到您的项目中。
  • 使用您喜爱的开发工具:支持 Hugging Face Transformers、Ollama、Gemma JAX 库等多种工具和框架。
  • 灵活部署:支持 Google GenAI API、Vertex AI、Cloud Run、Cloud TPU 和 Cloud GPU 等多种部署选项。

社区的力量

谷歌对 Gemma 社区的创造力和 Gemmaverse 的爆发式增长感到惊叹。从研究实验室开发的新颖微调技术,到开发者将 Gemma 训练用于全新模态,Gemma 的生态系统不断发展壮大。谷歌期待看到更多创新和突破。

© 版权声明

相关文章

暂无评论

none
暂无评论...