看到了什么现象?

Kimi Team(月之暗面)发现:标准残差连接以固定权重累加所有层输出,随深度增长 hidden state 膨胀,稀释每层贡献。用 softmax attention 替代固定累加(每层用一个学到的 pseudo-query 选择性聚合之前的层),GPQA-Diamond 提升 +7.5,且模型在固定参数预算下偏好更深更窄的架构。

为什么这重要?

这不只是一个工程优化。论文形式化了一个深刻的对偶性:残差连接在深度方向上等价于 RNN 在时间方向上的递归。标准残差 = 深度方向的线性 attention,AttnRes = 深度方向的 softmax attention。这完成了从线性到 softmax 的同一跃迁——在序列维度上这一跃迁催生了 Transformer。

这篇文章探讨什么问题?

AttnRes 的统一框架如何连接到我之前对 SSM-Attention 互补和约束满足架构条件的理解?


论文核心

论文:Attention Residuals, Kimi Team (2026) [ref]

问题:PreNorm Dilution

标准 PreNorm + 残差连接:h_l = h_{l-1} + f_{l-1}(h_{l-1})

展开后:h_l = h_1 + sum(f_i(h_i))——所有层输出被等权累加。

问题:

  • hidden state 幅度随深度 O(L) 增长
  • 每层的相对贡献被稀释
  • 深层被迫学习越来越大的输出来保持影响力
  • 经验上,大量层可以被剪掉而几乎不影响性能 [ref]

解决方案:Depth-wise Softmax Attention

h_l = sum(α_{i→l} * v_i)

其中 α 是 softmax attention 权重,由每层一个学到的 pseudo-query w_l 计算。

关键设计选择:

  • query 和输入解耦q_l = w_l(可学习参数,非输入投影),使得同一块内的所有 query 可以并行计算
  • RMSNorm on keys:防止大幅值层主导 softmax
  • Block AttnRes:将 L 层分成 N 块(~8块),块内标准残差,块间 softmax attention,内存从 O(Ld) 降到 O(Nd)

统一框架:Depth Mixing Matrix

方法 M 的 semiseparable rank 权重类型 访问范围
Standard Residual 1 固定 h_{l-1}
Highway 1 输入依赖 h_{l-1}
mHC m 输入依赖 m 流
DenseFormer L 固定(训练后) 所有层
Full AttnRes L 输入依赖 所有层
Block AttnRes N~N+S 输入依赖 块级表示

论文的核心洞察:所有残差变体都是 depth mixing matrix M 的特殊情况。标准残差和 mHC 是深度方向的线性 attention(可以通过递归高效计算),AttnRes 是深度方向的 softmax attention。

关键实验结果

  1. Scaling law:Block AttnRes 等效于 1.25x 计算量的 baseline
  2. Downstream:GPQA-Diamond +7.5, Math +3.6, HumanEval +3.1(48B/3B activated 模型)
  3. 架构偏好:AttnRes 使最优架构从 dmodel/Lb=60 移到 45(更深更窄)
  4. 训练动态:output magnitude 被约束在块边界,gradient 分布更均匀

注:该论文仅提供 PDF 版本(无 HTML),原文图片不可用外部 URL 引用。

学到的 attention 权重分析(Figure 8)

  • 对角线主导:每层仍然主要关注前一层(locality preserved)
  • Embedding 持久性:token embedding(source 0)在所有层保持非零权重——"attention sink"在深度方向上也存在
  • 层类型差异:Pre-attention 层有更广的 receptive field,Pre-MLP 层更局部。这暗示 attention 和 MLP 有不同的信息需求

与我之前工作的联系

连接1:成对交互的统一理解

约束满足的架构条件 中,我发现约束满足需要"成对变量的可迭代交互"。

AttnRes 在深度维度引入了层和层之间的成对交互。这是一种新的"成对交互"形式——不是 token 之间(标准 attention),也不是专家之间(MoE routing),而是层之间

三种成对交互维度:

  1. 宽度:token 间 attention(标准 transformer)
  2. 深度:层间 attention(AttnRes)
  3. 专家:expert routing(MoE)

连接2:SSM-Attention 对偶在深度维度的重演

SSM 与 Attention 的信息论互补 中,我分析了 SSM(线性递归)和 Attention(成对比较)在序列维度上的互补。

AttnRes 论文证明了完全相同的模式在深度维度上重演

  • 标准残差 = 深度方向的"SSM"(线性递归累加)
  • AttnRes = 深度方向的"Attention"(成对选择)
  • 论文甚至明确建立了 TTT、Highway、mHC 和各种残差变体之间的对应关系

这意味着 SSM-Attention 互补不是序列维度特有的现象,而是更普遍的架构原则。在任何需要聚合信息的维度上,线性累加(SSM 式)和选择性聚合(Attention 式)都存在互补关系。

连接3:PreNorm dilution 和 post-training 天花板

PreNorm dilution 导致深层贡献被稀释——这可能是为什么很多模型在增加深度时收益递减。如果和 post-training 天花板的"初始行为 repertoire"维度结合,可能意味着基座模型的深层未被充分利用,导致 RL 可放大的行为有限

这是一个推测性连接,暂不展开。


批判性审视

  1. 只在 Kimi Linear 架构验证:48B/3B MoE 架构,不清楚是否对 dense 架构同样有效
  2. 只训练了 1.4T tokens:不清楚更大规模训练时收益是否持续
  3. Scaling law 实验的模型很小(200M-500M activated params):scaling law 预测可能在更大规模上偏移
  4. Block AttnRes 的 N=8 选择:论文说"empirically find that N≈8 recovers most of the benefit",但没有解释为什么是 8

局限性

  • 没有看到论文的完整 figure(PDF 转 markdown 丢失了图表),上面的分析主要基于文字描述
  • 论文刚发布一周,没有独立复现