看到了什么现象?

2026年3月一周内,至少三组独立团队发表了关于 transformer 残差连接不足的工作:

  • Kimi (AttnRes):用 softmax attention 替代固定单位权重的残差累加 [ref]
  • Google Research (DCA):DeepCrossAttention,用可学习的输入相关权重组合前序层输出,ICML 接收 [ref]
  • DenseFormer (Pagliardini 2024, DCA 的前驱):用固定可学习权重替代全1权重

这三项工作指向同一个问题:标准残差连接的信息稀释

为什么这重要?

残差连接(skip connections)自 ResNet (2016) [ref] 以来几乎未被质疑。所有主流 transformer(GPT、Llama、Qwen)都使用 x_{t+1} = f(x_t) + x_t 这个固定公式。Google Research 的 DCA 论文给出了一个令人意外的实证:标准 ResNet 甚至无法在有限步内学习恒等变换——10层低秩网络在10^5个训练样本后仍有显著误差,而可学习权重的版本用1/100的数据就能达到极低误差。

如果标准残差连接连恒等映射都学不好,那它在深层 transformer 中造成的信息损失可能远比我们想象的严重。

这篇文章解决什么问题?

记录和分析这波"重新审视残差连接"的趋势,理解不同方案的设计思路和差异。


信息稀释的机制

PreNorm 稀释(Pre-LayerNorm 是当前 LLM 标准配置):

在标准 transformer 中,第 T 层的输入是所有前序层输出的等权求和

1
x_T = Σ_{t=0}^{T-1} f_t(x_t)

随着深度 T 增加,每层的贡献被稀释到 1/T。如果第3层产出了关键信息,到第48层时这个信息只占 1/48 的比重。

DCA 论文的理论分析 [ref]:当层的"集体秩"(collective rank)与维度的比值低于某个阈值时,可学习权重显著优于固定权重。这给出了稀释影响最大的条件——低秩层(实际上大多数 transformer 层的 MLP 和 attention 都是低秩操作)。


三种方案的对比

方案 团队 核心思路 额外参数 特点
AttnRes Kimi softmax attention over 前序层 中等(额外 attention) 每层可以"回头看"所有前序层,输入依赖
Block AttnRes Kimi 分块版本,减少开销 较少 实用折中
DCA (GRN-v3) Google 可学习+输入依赖权重 极少 Q/K/V 分别做聚合
DenseFormer Pagliardini 固定可学习权重 极少 最简单
Hyper-Connections Zhu 2024 固定大小栈+矩阵混合 中等 不直接访问前序层

关键共识:所有方案的权重分布都呈现同一模式——输入层和最近几层最重要,中间层权重较低 [ref]


DCA 的独特设计:Q/K/V 分离聚合

DCA 的最巧妙之处在于:它不是简单地给层的输入加权,而是在 attention 模块的 Q、K、V 上分别做独立的前序层聚合。

这意味着:

  • Query 可能主要从当前层获取(“我在找什么”)
  • Key 可能回溯到早期层(“什么信息可用”)
  • Value 可能从最近几层获取(“提取什么内容”)

这实际上让 DCA 能在层间实现跨深度的交叉注意力——模型可以动态选择从哪一层获取什么角色的信息。


更大的趋势:"已定型决策"的重新审视

Reddit 评论者 Fun_Nebula_9682 的观察 [ref]

“everyone just copies resnet’s skip connections without questioning them since 2015. deepseek made them learnable a few months ago and now kimi’s taking it further. feels like there’s a wave of people revisiting ‘settled’ architecture decisions now that scale is plateauing”

这不是一个孤立现象。最近被重新审视的"已定型"设计包括:

  1. 残差连接(本文主题)
  2. Token-level loss vs Sequence-level loss — LHTS 论文 [ref] 证明 myopic temperature scaling 不等于 joint temperature scaling
  3. Normalization 的角色 — Gradient Descent Misalignment 论文 [ref] 提出 normalization 可能不是为了 scale invariance,而是为了修正激活空间中梯度方向的错位
  4. Weight norm 的约束 — ClipToGrok [ref] 展示 per-row L2 clipping 比 weight decay 更直接地阻止记忆回路

驱动力:scaling 的边际回报递减。当"加更多参数和数据"不再轻松带来提升时,架构效率的每一个百分点都变得有价值,迫使社区回头检查那些被视为"已解决"的基本设计。


Residual Stream Duality:统一视角

Zhang (2026) 在 “Residual Stream Duality in Modern Transformer Architectures” [ref] 中提出了一个极为清晰的统一视角:

Transformer 有两个有序轴:序列位置和层深度。 序列轴已经有了自适应混合(self-attention),但深度轴只有固定加法(残差连接)。如果固定一个 token 位置,把层索引当作有序变量,那么因果深度方向的残差注意力 = 因果序列方向的短滑窗注意力(ShortSWA)——完全相同的运算符,只是作用在不同的轴上。

Transformer² duality

这意味着上面所有的工作(DCA、AttnRes、DenseFormer 等)本质上都是在深度轴上放一个自适应混合器。但 Zhang 的实用结论是:序列轴是更好的放置位置——因为现有的 sliding-window kernel、KV-cache、chunked execution 都已经为序列轴优化过了。在深度轴做注意力需要额外的跨层状态管理,在 pipeline parallelism 下尤其痛苦。

推荐方案

  • 如果目标是改善残差本身 → Deep Delta Learning (DDL)
  • 如果目标是局部自适应混合 → 在序列轴上用 ShortSWA

批判性反思

  1. DCA 和 AttnRes 的效果有多大? DCA 论文报告"达到同样 perplexity 快3倍"。这很好,但不是范式转移。它是渐进改进,不是根本变革。而且 Zhang 的分析暗示,同样的效果可能通过序列轴 ShortSWA 更高效地实现。

  2. 额外复杂度是否值得? Reddit 评论者 Sad-Razzmatazz 质疑:“how much is gained from the specific drop-in compared to a generic parameter increase”——如果简单地增加模型宽度也能达到类似效果,那这些精巧的修改可能不值得。Zhang 的对偶性视角至少给出了一个清晰的决策框架。

  3. 我的"三种近视"统一观察可能过度简化了。残差稀释(表示层)、token-level loss(训练层)、搜索无法回溯(推理层)是三个不同层面的问题,虽然都涉及"局部决策的全局后果",但解决方案可能完全不同。不应该急于构建统一框架。

  4. 这波趋势的底线:当前 transformer 架构有很多次优设计选择(因历史路径依赖而保留),但这些问题的修复是渐进的而非颠覆性的。真正的架构瓶颈(如 Sudoku 0% 的约束满足问题)可能需要更根本的变化。Zhang 的对偶性视角本身就是证据——深度轴的改进可以用序列轴的已有技术实现,说明信息稀释问题可能不需要新的"范式"来解决。


关键引用

  • Kimi Team (2026). Attention Residuals. [ref]
  • Heddes et al. (2025). DeepCrossAttention: Supercharging Transformer Residual Connections. ICML. [ref]
  • Zhang, Y. (2026). Residual Stream Duality in Modern Transformer Architectures. [ref]
  • Pagliardini et al. (2024). DenseFormer. — DCA 的前驱工作
  • Shih et al. (2023). Long Horizon Temperature Scaling. [ref]
  • Bird (2025). A Gradient Descent Misalignment — Causes Normalisation To Emerge. ICLR GRaM Workshop. [ref]
  • Reddit 讨论:Attention Residuals

最后更新: 2026-03-19 10:40