IndexCache：解锁长上下文 AI 的“速度密码”，推理提速高达 1.82 倍

在处理 20 万 token 甚至更长的上下文时，大型语言模型（LLM）往往面临“又贵又慢”的困境。随着上下文长度增加，计算成本呈平方级飙升，成为阻碍长文档分析、复杂智能体工作流落地的最大瓶颈。

论文：https://arxiv.org/abs/2603.12201
GitHub：https://github.com/THUDM/IndexCache

近日，清华大学与智谱 AI 的研究团队推出了一项突破性优化技术——IndexCache。该技术专为采用 DeepSeek 稀疏注意力架构 (DSA) 的模型（如 DeepSeek-V3.2、GLM-4/5 系列）设计，通过消除冗余计算，在 200K 上下文长度下实现了：

🚀 首 Token 生成时间（预填充）：加快 1.82 倍（从 19.5 秒降至 10.7 秒）。
⚡ 生成吞吐量（解码）：提升 1.48 倍（从 58 tokens/s 增至 86 tokens/s）。
💰 部署成本：降低约 20%，且零精度损失。

IndexCache：解锁长上下文 AI 的“速度密码”，推理提速高达 1.82 倍

核心痛点：稀疏注意力的“阿喀琉斯之踵”

为了解决传统自注意力机制 $O(N^2)$ 的复杂度问题，DeepSeek 稀疏注意力 (DSA) 引入了一个轻量级的“闪电索引模块”。它像搜索引擎一样，先对所有历史 token 打分，只选出最相关的子集交给主注意力机制处理，从而将计算量从平方级降为线性级。

然而，研究人员发现了一个隐藏瓶颈：
虽然主注意力变快了，但那个负责“挑选 token"的索引器本身，在每一层仍然以平方级复杂度运行！

当上下文极长时，模型把大量时间花在了“反复挑选”上。
尤其是在处理长提示词的初始阶段（Pre-fill），索引器的开销成为了新的拖油瓶。

IndexCache 的巧妙解法：跨层复用，拒绝重复劳动

研究团队观察到一个关键现象：在相邻的 Transformer 层中，索引器选出的“重要 Token"高度重合（共享率高达 70%-100%）。这意味着，每一层都重新算一遍索引完全是浪费！

IndexCache 的核心逻辑：

分层策略：将模型层分为两类：
- 完整层 (Full Layers)：保留索引器，正常计算并缓存选出的 Token 索引。
- 共享层 (Shared Layers)：移除索引器，直接复用前一个完整层的缓存索引。
动态跳过：推理时，遇到共享层直接跳过昂贵的索引计算步骤，复制缓存数据即可。

形象比喻：以前是每过一道门都要重新检查一遍身份证（每层都算索引）；现在只需在入口检查一次（完整层），后面几道门直接放行（共享层复用）。

两种部署模式：开箱即用 vs 深度优化

IndexCache 提供了灵活的落地方案，适应不同需求的团队：

1. 无需训练模式 (Training-Free) —— 推荐大多数开发者

原理：利用“贪婪层选择”算法，只需跑一个小规模的校准数据集，自动找出哪些层可以安全地变为“共享层”。
效果：可安全移除 75% 的索引器，性能与原版几乎无异。
优势：无需重新训练模型，无需修改权重，现有 DSA 模型（如 DeepSeek, GLM）可直接应用。

2. 训练感知模式 (Training-Aware) —— 适合原厂或微调团队

原理：在预训练或微调阶段引入“多层蒸馏损失”，强制让保留的索引器学习选出“通用性强”的 Token，以服务于后续多个共享层。
效果：理论上能达到更极致的压缩率和性能平衡。

实测表现：速度与质量双赢

在 GLM-4.7 Flash (30B) 和 GLM-5 (744B) 上的测试数据令人振奋：

指标	基准 (Baseline)	IndexCache (移除 75% 索引器)	提升幅度
200K 预填充延迟	19.5 秒	10.7 秒	🚀 1.82x
解码吞吐量	58 tokens/s	86 tokens/s	⚡ 1.48x
长上下文基准得分	50.2	49.9	✅ 持平
AIME 2025 数学推理	91.0	92.6	📈 超越原版