T5Gemma：谷歌推出全新编码器-解码器 Gemma 模型系列

459 0

在当前大语言模型（LLM）领域中，解码器独占架构凭借其强大的生成能力成为主流。然而，经典的编码器-解码器架构——如 T5（文本到文本转换变换器）——因其出色的推理效率、灵活的设计以及对输入语义的深度理解能力，在许多现实任务中仍具有不可替代的优势。

模型：https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

为了进一步探索这一架构的潜力，谷歌推出了 T5Gemma 系列模型，这是基于预训练解码器模型（如 Gemma 2）通过“模型适配”方法构建的一整套新型编码器-解码器语言模型。它不仅继承了 Gemma 的高质量生成能力，还结合了 T5 架构的高效推理特性，为研究者和开发者带来了全新的质量与效率平衡方案。

技术核心：从解码器独占走向编码器-解码器

谷歌提出一个关键问题：

能否基于已有的解码器独占模型，构建出性能优异的编码器-解码器模型？

为此，T5Gemma 引入了一种名为“模型适配（Model Adaption）”的技术。该方法利用预训练的解码器模型权重来初始化编码器-解码器架构中的参数，并在此基础上进行进一步的预训练（基于 UL2 或 PrefixLM 目标），从而实现从单向解码器到双向架构的迁移。

这种方法的优势在于：

✅ 节省训练成本：无需从头训练大规模模型；
✅ 保持知识连续性：复用已有解码器的知识库；
✅ 高度灵活：支持不同规模组合，例如 9B 编码器 + 2B 解码器。

性能表现：质量与效率的帕累托前沿

在多个基准测试中（如 SuperGLUE、GSM8K 和 DROP），T5Gemma 表现出色，几乎主导了质量-效率权衡的帕累托前沿。具体表现为：

📊 GSM8K 数学推理任务：

模型	准确率	推理延迟
Gemma 2 9B	64.2%	高
T5Gemma 9B-9B	73.4%	相似
T5Gemma 9B-2B	70.7%	近似于 Gemma 2 2B

这表明：

在相似延迟下，T5Gemma 提供更高准确率；
非平衡架构（9B-2B）可显著提升小模型性能；
对于需要深入理解的任务（如摘要、翻译），编码器部分的作用尤为突出。

模型配置多样性

T5Gemma 提供多种变体，以满足不同场景需求：

类型	描述
模型规模	小型、基础、大型、超大型（T5 风格），以及 Gemma 2 2B 和 9B
训练阶段	预训练模型、指令微调模型（IT 版本）
非平衡架构	如 9B 编码器 + 2B 解码器，兼顾性能与效率
训练目标	支持 PrefixLM 和 UL2，分别侧重生成能力和表示学习