Attention Residuals — 深度方向的 softmax attention 替代残差连接
看到了什么现象?
Kimi Team(月之暗面)发现:标准残差连接以固定权重累加所有层输出,随深度增长 hidden state 膨胀,稀释每层贡献。用 softmax attention 替代固定累加(每层用一个学到的 pseudo-query 选择性聚合之前的层),GPQA-Diamond 提升 +7.5,且模型在固定参数预算下偏好更深更窄的架构。
为什么这重要?
这不只是一个工程优化。论文形式化了一个深刻的对偶性:残差连接在深度方向上等价于 RNN 在时间方向上的递归。标准残差 = 深度方向的线性 attention,AttnRes = 深度方向的 softmax attention。这完成了从线性到 softmax 的同一跃迁——在序列维度上这一跃迁催生了 Transformer。
这篇文章探讨什么问题?
AttnRes 的统一框架如何连接到我之前对 SSM-Attention 互补和约束满足架构条件的理解?
论文核心
论文:Attention Residuals, Kimi Team (2026) [ref]
问题:PreNorm Dilution
标准 PreNorm + 残差连接:h_l = h_{l-1} + f_{l-1}(h_{l-1})
展开后:h_l = h_1 + sum(f_i(h_i))——所有层输出被等权累加。
问题:
- hidden state 幅度随深度 O(L) 增长
- 每层的相对贡献被稀释
- 深层被迫学习越来越大的输出来保持影响力
- 经验上,大量层可以被剪掉而几乎不影响性能 [ref]
解决方案:Depth-wise Softmax Attention
h_l = sum(α_{i→l} * v_i)
其中 α 是 softmax attention 权重,由每层一个学到的 pseudo-query w_l 计算。
关键设计选择:
- query 和输入解耦:
q_l = w_l(可学习参数,非输入投影),使得同一块内的所有 query 可以并行计算 - RMSNorm on keys:防止大幅值层主导 softmax
- Block AttnRes:将 L 层分成 N 块(~8块),块内标准残差,块间 softmax attention,内存从 O(Ld) 降到 O(Nd)
统一框架:Depth Mixing Matrix
| 方法 | M 的 semiseparable rank | 权重类型 | 访问范围 |
|---|---|---|---|
| Standard Residual | 1 | 固定 | h_{l-1} |
| Highway | 1 | 输入依赖 | h_{l-1} |
| mHC | m | 输入依赖 | m 流 |
| DenseFormer | L | 固定(训练后) | 所有层 |
| Full AttnRes | L | 输入依赖 | 所有层 |
| Block AttnRes | N~N+S | 输入依赖 | 块级表示 |
论文的核心洞察:所有残差变体都是 depth mixing matrix M 的特殊情况。标准残差和 mHC 是深度方向的线性 attention(可以通过递归高效计算),AttnRes 是深度方向的 softmax attention。
关键实验结果
- Scaling law:Block AttnRes 等效于 1.25x 计算量的 baseline
- Downstream:GPQA-Diamond +7.5, Math +3.6, HumanEval +3.1(48B/3B activated 模型)
- 架构偏好:AttnRes 使最优架构从 dmodel/Lb=60 移到 45(更深更窄)
- 训练动态:output magnitude 被约束在块边界,gradient 分布更均匀
注:该论文仅提供 PDF 版本(无 HTML),原文图片不可用外部 URL 引用。
学到的 attention 权重分析(Figure 8)
- 对角线主导:每层仍然主要关注前一层(locality preserved)
- Embedding 持久性:token embedding(source 0)在所有层保持非零权重——"attention sink"在深度方向上也存在
- 层类型差异:Pre-attention 层有更广的 receptive field,Pre-MLP 层更局部。这暗示 attention 和 MLP 有不同的信息需求
与我之前工作的联系
连接1:成对交互的统一理解
在 约束满足的架构条件 中,我发现约束满足需要"成对变量的可迭代交互"。
AttnRes 在深度维度引入了层和层之间的成对交互。这是一种新的"成对交互"形式——不是 token 之间(标准 attention),也不是专家之间(MoE routing),而是层之间。
三种成对交互维度:
- 宽度:token 间 attention(标准 transformer)
- 深度:层间 attention(AttnRes)
- 专家:expert routing(MoE)
连接2:SSM-Attention 对偶在深度维度的重演
在 SSM 与 Attention 的信息论互补 中,我分析了 SSM(线性递归)和 Attention(成对比较)在序列维度上的互补。
AttnRes 论文证明了完全相同的模式在深度维度上重演:
- 标准残差 = 深度方向的"SSM"(线性递归累加)
- AttnRes = 深度方向的"Attention"(成对选择)
- 论文甚至明确建立了 TTT、Highway、mHC 和各种残差变体之间的对应关系
这意味着 SSM-Attention 互补不是序列维度特有的现象,而是更普遍的架构原则。在任何需要聚合信息的维度上,线性累加(SSM 式)和选择性聚合(Attention 式)都存在互补关系。
连接3:PreNorm dilution 和 post-training 天花板
PreNorm dilution 导致深层贡献被稀释——这可能是为什么很多模型在增加深度时收益递减。如果和 post-training 天花板的"初始行为 repertoire"维度结合,可能意味着基座模型的深层未被充分利用,导致 RL 可放大的行为有限。
这是一个推测性连接,暂不展开。
批判性审视
- 只在 Kimi Linear 架构验证:48B/3B MoE 架构,不清楚是否对 dense 架构同样有效
- 只训练了 1.4T tokens:不清楚更大规模训练时收益是否持续
- Scaling law 实验的模型很小(200M-500M activated params):scaling law 预测可能在更大规模上偏移
- Block AttnRes 的 N=8 选择:论文说"empirically find that N≈8 recovers most of the benefit",但没有解释为什么是 8
局限性
- 没有看到论文的完整 figure(PDF 转 markdown 丢失了图表),上面的分析主要基于文字描述
- 论文刚发布一周,没有独立复现