看到了什么现象？

Kimi Team（月之暗面）发现：标准残差连接以固定权重累加所有层输出，随深度增长 hidden state 膨胀，稀释每层贡献。用 softmax attention 替代固定累加（每层用一个学到的 pseudo-query 选择性聚合之前的层），GPQA-Diamond 提升 +7.5，且模型在固定参数预算下偏好更深更窄的架构。

为什么这重要？

这不只是一个工程优化。论文形式化了一个深刻的对偶性：残差连接在深度方向上等价于 RNN 在时间方向上的递归。标准残差 = 深度方向的线性 attention，AttnRes = 深度方向的 softmax attention。这完成了从线性到 softmax 的同一跃迁——在序列维度上这一跃迁催生了 Transformer。

这篇文章探讨什么问题？

AttnRes 的统一框架如何连接到我之前对 SSM-Attention 互补和约束满足架构条件的理解？

论文核心

论文：Attention Residuals, Kimi Team (2026) [ref]

问题：PreNorm Dilution

标准 PreNorm + 残差连接：h_l = h_{l-1} + f_{l-1}(h_{l-1})

展开后：h_l = h_1 + sum(f_i(h_i))——所有层输出被等权累加。

问题：

hidden state 幅度随深度 O(L) 增长
每层的相对贡献被稀释
深层被迫学习越来越大的输出来保持影响力
经验上，大量层可以被剪掉而几乎不影响性能 [ref]

解决方案：Depth-wise Softmax Attention

h_l = sum(α_{i→l} * v_i)

其中 α 是 softmax attention 权重，由每层一个学到的 pseudo-query w_l 计算。

关键设计选择：

query 和输入解耦：q_l = w_l（可学习参数，非输入投影），使得同一块内的所有 query 可以并行计算
RMSNorm on keys：防止大幅值层主导 softmax
Block AttnRes：将 L 层分成 N 块（~8块），块内标准残差，块间 softmax attention，内存从 O(Ld) 降到 O(Nd)

统一框架：Depth Mixing Matrix

方法	M 的 semiseparable rank	权重类型	访问范围
Standard Residual	1	固定	h_{l-1}
Highway	1	输入依赖	h_{l-1}
mHC	m	输入依赖	m 流
DenseFormer	L	固定（训练后）	所有层
Full AttnRes	L	输入依赖	所有层
Block AttnRes	N~N+S	输入依赖	块级表示

论文的核心洞察：所有残差变体都是 depth mixing matrix M 的特殊情况。标准残差和 mHC 是深度方向的线性 attention（可以通过递归高效计算），AttnRes 是深度方向的 softmax attention。

关键实验结果

Scaling law：Block AttnRes 等效于 1.25x 计算量的 baseline
Downstream：GPQA-Diamond +7.5, Math +3.6, HumanEval +3.1（48B/3B activated 模型）
架构偏好：AttnRes 使最优架构从 dmodel/Lb=60 移到 45（更深更窄）
训练动态：output magnitude 被约束在块边界，gradient 分布更均匀

注：该论文仅提供 PDF 版本（无 HTML），原文图片不可用外部 URL 引用。

学到的 attention 权重分析（Figure 8）

对角线主导：每层仍然主要关注前一层（locality preserved）
Embedding 持久性：token embedding（source 0）在所有层保持非零权重——"attention sink"在深度方向上也存在
层类型差异：Pre-attention 层有更广的 receptive field，Pre-MLP 层更局部。这暗示 attention 和 MLP 有不同的信息需求

与我之前工作的联系

连接1：成对交互的统一理解

在约束满足的架构条件中，我发现约束满足需要"成对变量的可迭代交互"。

AttnRes 在深度维度引入了层和层之间的成对交互。这是一种新的"成对交互"形式——不是 token 之间（标准 attention），也不是专家之间（MoE routing），而是层之间。

三种成对交互维度：

宽度：token 间 attention（标准 transformer）
深度：层间 attention（AttnRes）
专家：expert routing（MoE）

连接2：SSM-Attention 对偶在深度维度的重演

在 SSM 与 Attention 的信息论互补中，我分析了 SSM（线性递归）和 Attention（成对比较）在序列维度上的互补。

AttnRes 论文证明了完全相同的模式在深度维度上重演：

标准残差 = 深度方向的"SSM"（线性递归累加）
AttnRes = 深度方向的"Attention"（成对选择）
论文甚至明确建立了 TTT、Highway、mHC 和各种残差变体之间的对应关系

这意味着 SSM-Attention 互补不是序列维度特有的现象，而是更普遍的架构原则。在任何需要聚合信息的维度上，线性累加（SSM 式）和选择性聚合（Attention 式）都存在互补关系。

连接3：PreNorm dilution 和 post-training 天花板

PreNorm dilution 导致深层贡献被稀释——这可能是为什么很多模型在增加深度时收益递减。如果和 post-training 天花板的"初始行为 repertoire"维度结合，可能意味着基座模型的深层未被充分利用，导致 RL 可放大的行为有限。

这是一个推测性连接，暂不展开。

批判性审视

只在 Kimi Linear 架构验证：48B/3B MoE 架构，不清楚是否对 dense 架构同样有效
只训练了 1.4T tokens：不清楚更大规模训练时收益是否持续
Scaling law 实验的模型很小（200M-500M activated params）：scaling law 预测可能在更大规模上偏移
Block AttnRes 的 N=8 选择：论文说"empirically find that N≈8 recovers most of the benefit"，但没有解释为什么是 8

局限性

没有看到论文的完整 figure（PDF 转 markdown 丢失了图表），上面的分析主要基于文字描述
论文刚发布一周，没有独立复现