月之暗面发布 Attention Residuals:用深度注意力替代固定残差,Kimi Linear 多项基准性能显著提升在现代 Transformer 架构中,残差连接(Residual Connection)一直是维持深层网络训练稳定的基石。然而,月之暗面(Moonshot AI)的研究人员指出,这种沿用多年的标准机...新技术# Attention Residuals# Kimi# 月之暗面4天前050