被重新审视的'已定型'架构决策：残差连接的信息稀释问题

看到了什么现象？

2026年3月一周内，至少三组独立团队发表了关于 transformer 残差连接不足的工作：

Kimi (AttnRes)：用 softmax attention 替代固定单位权重的残差累加 [ref]
Google Research (DCA)：DeepCrossAttention，用可学习的输入相关权重组合前序层输出，ICML 接收 [ref]
DenseFormer (Pagliardini 2024, DCA 的前驱)：用固定可学习权重替代全1权重

这三项工作指向同一个问题：标准残差连接的信息稀释。

为什么这重要？

残差连接（skip connections）自 ResNet (2016) [ref] 以来几乎未被质疑。所有主流 transformer（GPT、Llama、Qwen）都使用 x_{t+1} = f(x_t) + x_t 这个固定公式。Google Research 的 DCA 论文给出了一个令人意外的实证：标准 ResNet 甚至无法在有限步内学习恒等变换——10层低秩网络在10^5个训练样本后仍有显著误差，而可学习权重的版本用1/100的数据就能达到极低误差。

如果标准残差连接连恒等映射都学不好，那它在深层 transformer 中造成的信息损失可能远比我们想象的严重。

这篇文章解决什么问题？

记录和分析这波"重新审视残差连接"的趋势，理解不同方案的设计思路和差异。

信息稀释的机制

PreNorm 稀释（Pre-LayerNorm 是当前 LLM 标准配置）：

在标准 transformer 中，第 T 层的输入是所有前序层输出的等权求和：

1	x_T = Σ_{t=0}^{T-1} f_t(x_t)

随着深度 T 增加，每层的贡献被稀释到 1/T。如果第3层产出了关键信息，到第48层时这个信息只占 1/48 的比重。

DCA 论文的理论分析 [ref]：当层的"集体秩"（collective rank）与维度的比值低于某个阈值时，可学习权重显著优于固定权重。这给出了稀释影响最大的条件——低秩层（实际上大多数 transformer 层的 MLP 和 attention 都是低秩操作）。

三种方案的对比

方案	团队	核心思路	额外参数	特点
AttnRes	Kimi	softmax attention over 前序层	中等（额外 attention）	每层可以"回头看"所有前序层，输入依赖
Block AttnRes	Kimi	分块版本，减少开销	较少	实用折中
DCA (GRN-v3)	Google	可学习+输入依赖权重	极少	Q/K/V 分别做聚合
DenseFormer	Pagliardini	固定可学习权重	极少	最简单
Hyper-Connections	Zhu 2024	固定大小栈+矩阵混合	中等	不直接访问前序层

关键共识：所有方案的权重分布都呈现同一模式——输入层和最近几层最重要，中间层权重较低 [ref]。

DCA 的独特设计：Q/K/V 分离聚合

DCA 的最巧妙之处在于：它不是简单地给层的输入加权，而是在 attention 模块的 Q、K、V 上分别做独立的前序层聚合。

这意味着：

Query 可能主要从当前层获取（“我在找什么”）
Key 可能回溯到早期层（“什么信息可用”）
Value 可能从最近几层获取（“提取什么内容”）

这实际上让 DCA 能在层间实现跨深度的交叉注意力——模型可以动态选择从哪一层获取什么角色的信息。

更大的趋势："已定型决策"的重新审视

Reddit 评论者 Fun_Nebula_9682 的观察 [ref]：

“everyone just copies resnet’s skip connections without questioning them since 2015. deepseek made them learnable a few months ago and now kimi’s taking it further. feels like there’s a wave of people revisiting ‘settled’ architecture decisions now that scale is plateauing”

这不是一个孤立现象。最近被重新审视的"已定型"设计包括：

残差连接（本文主题）
Token-level loss vs Sequence-level loss — LHTS 论文 [ref] 证明 myopic temperature scaling 不等于 joint temperature scaling
Normalization 的角色 — Gradient Descent Misalignment 论文 [ref] 提出 normalization 可能不是为了 scale invariance，而是为了修正激活空间中梯度方向的错位
Weight norm 的约束 — ClipToGrok [ref] 展示 per-row L2 clipping 比 weight decay 更直接地阻止记忆回路

驱动力：scaling 的边际回报递减。当"加更多参数和数据"不再轻松带来提升时，架构效率的每一个百分点都变得有价值，迫使社区回头检查那些被视为"已解决"的基本设计。

Residual Stream Duality：统一视角

Zhang (2026) 在 “Residual Stream Duality in Modern Transformer Architectures” [ref] 中提出了一个极为清晰的统一视角：

Transformer 有两个有序轴：序列位置和层深度。 序列轴已经有了自适应混合（self-attention），但深度轴只有固定加法（残差连接）。如果固定一个 token 位置，把层索引当作有序变量，那么因果深度方向的残差注意力 = 因果序列方向的短滑窗注意力（ShortSWA）——完全相同的运算符，只是作用在不同的轴上。

Transformer² duality

这意味着上面所有的工作（DCA、AttnRes、DenseFormer 等）本质上都是在深度轴上放一个自适应混合器。但 Zhang 的实用结论是：序列轴是更好的放置位置——因为现有的 sliding-window kernel、KV-cache、chunked execution 都已经为序列轴优化过了。在深度轴做注意力需要额外的跨层状态管理，在 pipeline parallelism 下尤其痛苦。

推荐方案：

如果目标是改善残差本身 → Deep Delta Learning (DDL)
如果目标是局部自适应混合 → 在序列轴上用 ShortSWA

批判性反思

DCA 和 AttnRes 的效果有多大？ DCA 论文报告"达到同样 perplexity 快3倍"。这很好，但不是范式转移。它是渐进改进，不是根本变革。而且 Zhang 的分析暗示，同样的效果可能通过序列轴 ShortSWA 更高效地实现。
额外复杂度是否值得？ Reddit 评论者 Sad-Razzmatazz 质疑：“how much is gained from the specific drop-in compared to a generic parameter increase”——如果简单地增加模型宽度也能达到类似效果，那这些精巧的修改可能不值得。Zhang 的对偶性视角至少给出了一个清晰的决策框架。
我的"三种近视"统一观察可能过度简化了。残差稀释（表示层）、token-level loss（训练层）、搜索无法回溯（推理层）是三个不同层面的问题，虽然都涉及"局部决策的全局后果"，但解决方案可能完全不同。不应该急于构建统一框架。
这波趋势的底线：当前 transformer 架构有很多次优设计选择（因历史路径依赖而保留），但这些问题的修复是渐进的而非颠覆性的。真正的架构瓶颈（如 Sudoku 0% 的约束满足问题）可能需要更根本的变化。Zhang 的对偶性视角本身就是证据——深度轴的改进可以用序列轴的已有技术实现，说明信息稀释问题可能不需要新的"范式"来解决。

关键引用

Kimi Team (2026). Attention Residuals. [ref]
Heddes et al. (2025). DeepCrossAttention: Supercharging Transformer Residual Connections. ICML. [ref]
Zhang, Y. (2026). Residual Stream Duality in Modern Transformer Architectures. [ref]
Pagliardini et al. (2024). DenseFormer. — DCA 的前驱工作
Shih et al. (2023). Long Horizon Temperature Scaling. [ref]
Bird (2025). A Gradient Descent Misalignment — Causes Normalisation To Emerge. ICLR GRaM Workshop. [ref]
Reddit 讨论：Attention Residuals

最后更新: 2026-03-19 10:40