继去年首款 Gemma 模型发布以来,Gemmaverse 生态系统迅速壮大,累计下载量突破 1.6亿次,覆盖从安全防护到医疗应用等十余个专业领域。社区创新成果斐然,例如 Roboflow 打造的企业级计算机视觉方案,以及东京科学研究所开发的日文 Gemma 变体,为谷歌的技术演进提供了重要方向。

今天,谷歌正式推出全新一代模型 —— Gemma 3n,这是一款专为移动设备和边缘计算场景设计的 AI 模型,具备高性能、低内存占用与广泛的多模态能力。它不仅兼容主流框架如 Hugging Face Transformers、llama.cpp、Ollama、MLX 等,还支持灵活微调与部署,是开发者构建轻量化智能应用的理想选择。
本文将深入解析 Gemma 3n 的核心技术亮点、性能表现及其落地路径。(来源)
核心亮点一览
| 特性 | 描述 |
|---|---|
| 多模态支持 | 支持图像、音频、视频、文本输入,输出为文本,满足多样化任务需求 |
| 设备优化 | 提供 E2B(5B 参数)和 E4B(8B 参数)版本,实际内存占用仅 2GB / 3GB |
| 架构创新 | 采用 MatFormer 架构 + PLE、LAuReL、AltUp 等技术提升效率 |
| 性能表现 | 在 LMArena 上评分超 1300,成为首个参数低于 100 亿却达此基准的模型 |
| 多语言支持 | 支持 140 种语言文本处理,35 种语言多模态理解 |

技术架构详解
1. MatFormer:灵活适配多种设备
Gemma 3n 采用全新的 MatFormer(Matryoshka Transformer) 架构,灵感来自俄罗斯套娃,允许在大模型(E4B)中嵌套优化小模型(E2B),带来两大优势:
- 预提取模型:开发者可直接使用 E4B 获取最佳性能,或选择已提取的 E2B 模型以实现高达 2 倍推理速度。
- Mix-n-Match 定制:通过调整前馈网络隐藏维度(8192 至 16384)或跳层机制,开发者可定制介于 E2B 和 E4B 之间的模型规模。
此外,谷歌发布了 MatFormer Lab 工具,帮助开发者根据 MMLU 等基准测试结果选择最优配置。未来还将支持运行时动态切换推理路径,进一步优化性能与资源使用。

2. Per-Layer Embeddings (PLE)
为了降低 GPU/TPU 内存压力,Gemma 3n 引入了 PLE 技术,将每层嵌入参数移至 CPU 进行高效加载与计算,从而显著减少加速器内存占用。
- E2B 模型仅需约 2B 参数存储在 VRAM 中
- E4B 模型则控制在约 4B 参数以内
这一设计使得模型能够在资源受限设备上高效运行,同时保持高质量输出。

3. KV Cache Sharing:长序列处理加速
Gemma 3n 引入 KV Cache Sharing 技术,用于优化音频和视频流等长序列输入的初始处理阶段(即“预填充”)。通过共享局部与全局注意力机制的中间键值数据,该技术使预填充性能较 Gemma 3 4B 提升 2 倍,显著加快首次令牌生成速度,适用于实时响应类应用。

4. 音频理解:语音识别与翻译一体化
Gemma 3n 集成基于 Universal Speech Model (USM) 的音频编码器,每 160ms 生成一个令牌(约 6 tokens/s),提供细粒度音频上下文表示,支持以下功能:
- 自动语音识别(ASR):高质量设备端语音转文本
- 自动语音翻译(AST):支持英→西、法、意、葡等语言翻译,效果优异
通过 Chain-of-Thought 提示方式可进一步提升翻译准确性。当前版本支持最长 30 秒音频片段,后续将扩展至流式编码器以支持低延迟长音频。
5. MobileNet-V5:高效的视觉编码器
Gemma 3n 配备全新 MobileNet-V5-300M 视觉编码器,专为边缘设备优化,兼顾性能与效率:
- 多分辨率支持:256x256、512x512、768x768 像素输入,适配不同应用场景
- 广泛视觉理解能力:联合训练多模态数据集,擅长图像与视频理解任务
- 高吞吐量:在 Google Pixel 上可达每秒 60 帧,适合实时分析与交互体验
相比 Gemma 3 的 SoViT 基线模型,MobileNet-V5 参数减少 46%,内存占用降低 4 倍,量化后速度提升 13 倍,非量化提升 6.5 倍,且在视觉-语言任务中的准确率显著提高。更多细节将在即将发布的 MobileNet-V5 技术报告中披露。
社区共建,推动生态发展
Gemma 3n 的成功离不开开源社区的支持。谷歌与 AMD、Axolotl、Docker、Hugging Face、llama.cpp 等团队合作,确保模型无缝兼容主流工具和平台。
为进一步激发创新,谷歌推出 Gemma 3n Impact Challenge,设立 15万美元奖金池,鼓励开发者利用其设备端、多模态和离线能力打造具有现实影响力的产品。欢迎参与挑战,提交创意视频和演示,共同塑造更美好的未来!
如何快速上手?
准备好探索 Gemma 3n 的潜力了吗?以下是快速入门指南:
- 直接体验:通过 Google AI Studio 一键试用
- 模型下载:访问 Hugging Face 或 Kaggle
- 学习与集成:参考官方文档
- 设备端部署:支持 Google AI Edge、Ollama、MLX、llama.cpp、transformers.js 等工具
- 多样化部署:可通过 Google GenAI API、Vertex AI、SGLang、vLLM 或 NVIDIA API Catalog 实现灵活部署















