TransMLA 框架 + TPLA 机制：解决 GQA 模型迁移痛点，大幅提升 LLM 推理效率

171 0

由北京大学人工智能研究院、北京通用人工智能研究院与腾讯优图实验室联合提出的新方法 TransMLA，为大模型推理效率的提升提供了一条实用路径。该方法能够将已广泛部署的 GQA（Grouped Query Attention）架构模型，如 LLaMA、Qwen、Mixtral 等，无需重新训练，即可转换为基于 MLA（Multi-Head Latent Attention） 架构的高效版本，同时全面兼容 DeepSeek 系列模型，在长序列推理场景下实现显著加速。

GitHub：https://github.com/fxmeng/TransMLA

这一进展的意义在于：它绕开了从零训练 MLA 模型所需的巨大资源投入，使已有 GQA 模型也能享受 MLA 带来的推理优势，尤其适用于大规模服务部署场景。

TransMLA 框架 + TPLA 机制：解决 GQA 模型迁移痛点，大幅提升 LLM 推理效率

为什么需要 MLA？

在当前大模型的实际应用中，通信开销正逐渐取代计算本身，成为分布式推理的主要瓶颈。传统多头注意力机制在生成过程中需缓存完整的 Key 和 Value（KV）张量，随着序列长度增长，KV 缓存占用内存迅速膨胀，且跨设备传输成本高昂。

MLA 通过引入低秩潜在表示来压缩 KV 缓存，仅保留关键信息，并通过 Absorb 操作防止其在后续层中恢复原始维度，从而有效控制缓存增长。这不仅减少了显存占用，也显著降低了设备间通信量，提升了推理吞吐。

然而，尽管 MLA 在 DeepSeek V2/V3/R1 上验证了有效性，但由于主流厂商已在 GQA 架构上投入大量优化资源，重新训练一套 MLA 模型的成本过高，限制了其广泛应用。

TransMLA：让 GQA 模型“平移”到 MLA

TransMLA 的核心目标是解决这一现实困境：如何在不重新训练的前提下，将成熟的 GQA 预训练模型迁移到 MLA 架构上？

研究人员提出了一种名为 TPLA（Tensor Parallel Latent Attention） 的新型注意力机制，作为 TransMLA 框架的核心组件。TPLA 在保留原始模型参数完整性的同时，重构了注意力计算流程，使其兼容 MLA 的压缩特性，并支持张量并行（Tensor Parallelism, TP）环境下的高效执行。

核心功能

KV 缓存压缩
- 将每个注意力层的 Key 和 Value 映射为一个共享的低秩潜在向量 $ c_{KV} $，仅缓存该向量。
- 大幅降低 KV 缓存的存储和通信开销，尤其在长序列场景下优势明显。
张量并行优化
- 将潜在向量 $ c_{KV} $ 与查询（Query）的输入维度沿头维度切分，分布到多个设备上。
- 各设备独立完成局部注意力计算，最后通过 all-reduce 聚合结果，避免频繁通信。
性能保持机制
- 每个注意力头仍能访问完整的潜在表示，确保模型表达能力不受损失。
- 引入正交变换（如 Hadamard 或 PCA）对权重进行重新参数化，减少跨设备干扰，最小化精度下降。

关键特性

特性	说明
无缝兼容	可直接加载现有 GQA 模型权重，无需微调或重训练
即插即用	支持主流架构（LLaMA、Qwen、Mixtral 等），适配性强
高效推理	在 32K 上下文长度下，相比原生 MLA 实现最高近 2 倍加速
灵活部署	支持不同规模的张量并行配置，适应多样硬件环境