月之暗面发布 Attention Residuals：用深度注意力替代固定残差，Kimi Linear 多项基准性能显著提升

在现代 Transformer 架构中，残差连接（Residual Connection）一直是维持深层网络训练稳定的基石。然而，月之暗面（Moonshot AI）的研究人员指出，这种沿用多年的标准机制存在结构性缺陷：它强制所有先前层的输出以固定权重累积，导致深层网络中单层贡献被逐渐“稀释”。

GitHub：https://github.com/MoonshotAI/Attention-Residuals
论文地址：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

为了解决这一问题，月之暗面正式提出了 Attention Residuals (AttnRes) —— 一种用深度维度注意力替代固定残差混合的全新机制。该成果已集成至其最新 MoE 架构 Kimi Linear 中，并在多项权威基准测试中取得了显著进步。

月之暗面发布 Attention Residuals：用深度注意力替代固定残差，Kimi Linear 多项基准性能显著提升

为什么标准残差成了瓶颈？

研究团队指出了传统 PreNorm 残差连接的三大痛点：

缺乏选择性访问：所有层接收相同的聚合状态，无法根据当前层需求（如注意力层 vs 前馈层）动态调整信息来源。
信息不可逆损失：一旦信息混入单一残差流，后续层无法 selectively 恢复特定的早期表示。
输出增长失衡：为了在不断膨胀的累积状态中保持影响力，较深层被迫产生更大的输出，导致训练不稳定。

核心洞察：如果注意力机制能通过取代时间上的固定循环来改进序列建模，那么同样的逻辑也应适用于网络的深度维度。

核心方案：Attention Residuals (AttnRes)

AttnRes 的核心思想非常优雅：让每一层通过对“深度维度”进行 Softmax 注意力，来动态聚合先前层的表示。

工作机制：第 $l$ 层的输入不再是简单的“嵌入 + 之前所有层输出之和”，而是“嵌入 + 之前层输出的加权和”。
权重计算：权重是在深度维度（即层与层之间）计算的，而非序列维度。
伪查询向量：默认设计中，每一层拥有一个可学习的、特定于层的伪查询向量 ($w_l$)，用于查询之前层的关键值（Key/Value）。
RMSNorm 保护：引入 RMSNorm 防止大幅度的层输出主导注意力权重，确保稳定性。

工程落地：块注意力残差 (Block Attention Residuals)

全量注意力残差虽然强大，但会带来 $O(L^2d)$ 的计算成本和 $O(Ld)$ 的内存开销。为了让其在大规模模型中实用，月之暗面提出了块注意力残差：

分块策略：将 $L$ 层划分为 $N$ 个块。
块内累积：块内输出先累积成一个代表向量。
块间注意力：注意力仅在块级表示上计算。
效果：内存和通信开销从 $O(Ld)$ 降至 $O(Nd)$。
- 训练开销：流水线并行下增加 < 4%。
- 推理延迟：典型负载下增加 < 2%。

扩展规律与性能实测

研究团队在五种不同模型规模下进行了严格对比（基线 vs 全注意力 vs 块注意力），结果令人振奋：

1. 缩放定律 (Scaling Laws)

拟合结果显示，AttnRes 实现了更低的验证损失：

基线 (PreNorm):L = 1.891 x C^-0.057
块注意力残差: L = 1.870 x C^-0.058
全注意力残差: L = 1.865 x C^-0.057

结论：在整个计算范围内，块注意力残差达到了相当于基线模型花费 1.25 倍计算量才能达到的损失水平。这意味着用极小的额外开销，换取了显著的等效算力提升。

2. Kimi Linear 实战表现

月之暗面将 AttnRes 集成到了拥有 480 亿总参数 / 30 亿激活参数 的 Kimi Linear MoE 模型中，并在 1.4T token 上预训练。下游任务评估显示全面进步：

基准测试	基线得分	AttnRes 得分	提升幅度
MMLU (综合知识)	73.5	74.6	+1.1
GPQA-Diamond (高难科学)	36.9	44.4	+7.5 🚀
BBH (复杂推理)	76.3	78.0	+1.7
Math (数学解题)	53.5	57.1	+3.6
HumanEval (代码生成)	59.1	62.2	+3.1
MBPP (代码编程)	72.0	73.9	+1.9
CMMLU (中文知识)	82.0	82.9	+0.9
C-Eval (中文评估)	79.6	82.5	+2.9