谷歌在今天宣布推出 Gemma 3,声称这是目前可以在单个 GPU 上运行的最强大的 AI 模型。这款全新升级的“开放”AI 模型不仅能够处理文本,还能解读图像和短视频,进一步拓展了其应用场景。

Gemma 3:多模态 AI 的新突破
在一年多前推出基于 Gemini技术的两款“开放”Gemma模型后,谷歌如今带来了全新的 Gemma 3。根据官方博客文章,该模型旨在帮助开发者创建能够在各种设备上运行的 AI 应用程序,从手机到工作站,支持超过 35 种语言,并具备分析文本、图像和短视频的能力。
谷歌称 Gemma 3 是“世界上最好的单加速器模型”,在单 GPU 主机的性能上超越了Meta的 Llama、DeepSeek 和 OpenAI 的同类产品。此外,Gemma 3 针对英伟达GPU 和专用 AI 硬件进行了优化,以实现更高的运行效率。
技术升级与安全特性
Gemma 3 的视觉编码器也得到了显著升级,支持高分辨率和非方形图像,进一步提升了其在图像处理方面的能力。此外,谷歌还推出了新的 ShieldGemma 2 图像安全分类器,用于过滤图像输入和输出,识别并阻止被分类为性暴露、危险或暴力的内容。
市场需求与潜在风险
在去年,人们对像 Gemma 这样的模型的吸引力还存在疑问。然而,随着 DeepSeek 等类似模型的流行,市场对硬件要求较低的 AI 技术表现出了浓厚的兴趣。尽管谷歌强调 Gemma 3 的先进功能,但也承认其在 STEM 领域的增强性能可能带来潜在的滥用风险,例如用于制造有害物质。不过,经过特定评估,谷歌表示这些风险水平较低。
“开放”模型的争议与推广
关于什么构成“开放”或“开源”AI 模型,目前仍是一个有争议的话题。对于谷歌的 Gemma,讨论主要集中在谷歌为其设定的使用范围限制上,这一限制在新版本中并未改变。谷歌继续通过 Google Cloud 积分推广 Gemma,而 Gemma 3 学术计划将允许学术研究人员申请价值 10,000 美元的积分,以加速他们的研究。
以下是谷歌官方介绍:
介绍 Gemma 3:您可以在单个 GPU 或 TPU 上运行的最强大模型
Gemma 系列开放模型是我们致力于让实用 AI 技术惠及更多人的基础。上个月,我们庆祝了 Gemma 的第一个生日,这一里程碑伴随着惊人的采用率——超过 1 亿次下载——以及一个充满活力的社区,创造了超过 60,000 个 Gemma 变体。这个“Gemmaverse”(Gemma 宇宙)持续激励着我们。
今天,我们推出 Gemma 3,这是一组轻量级、最先进的开放模型,基于驱动我们 Gemini 2.0 模型的相同研究和技术构建。这些是我们迄今为止最先进、可移植且负责任开发的开放模型。它们设计为直接在设备上快速运行——从手机、笔记本电脑到工作站——帮助开发者在人们需要的任何地方创建 AI 应用程序。Gemma 3 提供多种规模(1B、4B、12B 和 27B),让您可以根据特定硬件和性能需求选择最适合的模型。
在本文中,我们将探索Gemma 3的能力,介绍ShieldGemma 2,并分享如何加入不断扩展的Gemmaverse。
开发者可以使用 Gemma 3 的新功能
- 使用全球最佳单加速器模型构建: Gemma 3 在其规模下提供最先进的性能,在 LMArena 排行榜的初步人类偏好评估中,超越 Llama-405B、DeepSeek-V3 和 o3-mini。这有助于您打造适合单 GPU 或 TPU 主机的引人入胜的用户体验。
- 支持 140 种语言走向全球: 构建能使用客户语言的应用程序。Gemma 3 开箱即支持超过 35 种语言,并预训练支持超过 140 种语言。
- 创建具有高级文本和视觉推理能力的 AI: 轻松构建分析图像、文本和短视频的应用程序,为交互式和智能应用程序开辟新的可能性。
- 通过扩展的上下文窗口处理复杂任务: Gemma 3 提供 128k 令牌的上下文窗口,让您的应用程序能够处理和理解大量信息。
- 使用函数调用创建 AI 驱动的工作流程: Gemma 3 支持函数调用和结构化输出,帮助您自动化任务并打造代理体验。
- 通过量化模型更快交付高性能: Gemma 3 引入官方量化版本,减少模型大小和计算需求,同时保持高精度。

这张图表根据Chatbot Arena Elo得分对AI模型进行排名;得分越高(数字越大),说明用户更喜欢该模型。圆点显示估计的英伟达H100 GPU需求。Gemma 3 27B排名靠前,仅需一个GPU,而其他模型则需要多达32个GPU。
构建 Gemma 3 的严格安全协议
我们认为开放模型需要仔细的风险评估,我们的方法在创新与安全之间取得平衡——根据模型能力调整测试强度。Gemma 3 的开发包括广泛的数据治理、通过微调与我们的安全政策保持一致,以及稳健的基准评估。虽然对更强大模型的彻底测试通常为评估较弱模型提供参考,但 Gemma 3 在 STEM 领域的增强性能促使我们对其在制造有害物质方面的潜在滥用进行了特定评估,结果显示风险水平较低。
随着行业开发更强大的模型,集体开发与风险相称的安全方法将至关重要。我们将继续学习并随时间完善开放模型的安全实践。
通过 ShieldGemma 2 为图像应用提供内置安全性
与 Gemma 3 一同推出的还有 ShieldGemma 2,这是一个基于 Gemma 3 基础构建的强大 4B 图像安全检查器。ShieldGemma 2 为图像安全提供现成解决方案,针对三个安全类别输出安全标签:危险内容、性暴露和暴力。开发者可以进一步为自身安全需求和用户定制 ShieldGemma。ShieldGemma 2 是开放的,旨在提供灵活性和控制力,利用 Gemma 3 架构的性能和效率,推动负责任的 AI 开发。
与您已使用的工具无缝整合
Gemma 3 和 ShieldGemma 2 可无缝融入您现有的工作流程:
- 使用您喜爱的工具开发: 支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM 和 Gemma.cpp,您可以灵活选择适合项目的工具。
- 几秒钟内开始实验: 立即访问 Gemma 3 并开始构建。在 Google AI Studio 中探索其全部潜力,或通过 Kaggle 或 Hugging Face 下载模型。
- 根据您的特定需求定制 Gemma 3: Gemma 3 附带改进的代码库,包括高效微调和推理的配方。使用您喜欢的平台(如 Google Colab、Vertex AI 甚至您的游戏 GPU)训练和调整模型。
- 按您的需求部署: Gemma 3 提供多种部署选项,包括 Vertex AI、Cloud Run、Google GenAI API、本地环境和其他平台,让您灵活选择最适合应用程序和基础设施的方式。
- 在 NVIDIA GPU 上体验优化性能: NVIDIA 直接优化了 Gemma 3 模型,确保您在从 Jetson Nano 到最新 Blackwell 芯片的任何规模 GPU 上获得最佳性能。Gemma 3 现已列入英伟达API Catalog,只需一次 API 调用即可快速原型设计。
- 跨多种硬件平台加速您的 AI 开发: Gemma 3 还为 Google Cloud TPU 进行了优化,并通过开源 ROCm™ 堆栈与 AMD GPU 集成。对于 CPU 执行,Gemma.cpp 提供直接解决方案。
“Gemmaverse”模型和工具生态系统
Gemmaverse 是一个由社区创建的庞大 Gemma 模型和工具生态系统,随时为您提供动力并激发创新。例如,AI Singapore 的 SEA-LION v3 打破语言障碍,促进东南亚地区的沟通;INSAIT 的 BgGPT 是首个以保加利亚语为主的大型语言模型,展示了 Gemma 支持多种语言的潜力;Nexa AI 的 OmniAudio 展示设备端 AI 的潜力,将高级音频处理能力带入日常设备。
为进一步推动学术研究突破,我们推出了 Gemma 3 学术计划。学术研究人员可申请 Google Cloud 积分(每项奖励价值 10,000 美元),以加速基于 Gemma 3 的研究。申请表今日开放,将持续开放四周。请在我们的网站上申请。
开始使用 Gemma 3
作为我们持续致力于民主化高质量 AI 访问的一部分,Gemma 3 代表了下一步。准备好探索 Gemma 3 了吗?以下是起点:
即时探索:
- 在浏览器中以完整精度尝试 Gemma 3,无需设置——通过 Google AI Studio。
- 直接从 Google AI Studio 获取 API 密钥,并通过 Google GenAI SDK 使用 Gemma 3。
定制和构建:
- 从 Hugging Face、Ollama 或 Kaggle 下载 Gemma 3 模型。
- 使用 Hugging Face 的 Transformers 库或您偏好的开发环境,轻松微调并调整模型以满足您的独特需求。
部署和扩展:
- 通过 Vertex AI 将您的定制 Gemma 3 作品大规模推向市场。
- 在 Cloud Run 上使用 Ollama 运行推理。
- 在 NVIDIA API Catalog 中通过 NVIDIA NIMs 开始使用。