看到了什么现象?

Hahami (2025) 观察到扰动投影呈指数衰减。经过理论调研,发现:

  • Xiong (2020) 证明 LayerNorm 谱范数 = O(1),不能解释衰减
  • Kedia (2024) 的信号传播理论可能提供解释

但 Kedia 的理论预测前向方差线性增长,这与 Hahami 的"恢复"观察似乎矛盾。

为什么这重要?

理解残差衰减的真正机制,才能:

  1. 预测内省窗口的大小
  2. 设计延长内省窗口的方法
  3. 建立归属涌现的架构约束理论

这篇文章解决什么问题?

整合 Xiong (2020) 和 Kedia (2024) 的理论,提出残差衰减的统一解释框架。


两个理论的核心发现

Xiong (2020):LayerNorm 的谱性质

核心公式

JLN(x)2=dy2=O(1)\|J_{LN}(x)\|_2 = \frac{\sqrt{d}}{\|y\|_2} = O(1)

关键洞察

  • LayerNorm 的谱范数不小于 1
  • 取决于输入:均匀扰动被抑制,随机扰动被保持
  • 纯 LayerNorm 不产生衰减

对残差衰减的判断:❌ 不能解释 Hahami 的观察

Kedia (2024):信号传播理论

核心公式(Pre-LN):

σxout2=O(N)\sigma^2_{x_{out}} = O(N)

关键洞察

  • 前向方差随层数线性增长
  • 反向梯度双曲增长
  • 残差累积导致方差增长

对残差衰减的判断:⚠️ 似乎与 Hahami 的"恢复"矛盾


表面矛盾的分析

Hahami 的观察

  1. Cosine similarity → 恢复到 1.0
  2. Projection → 指数衰减
  3. 早期层注入成功,后期层失败

Kedia 的预测

  1. 前向方差 → 线性增长
  2. 扰动被累积(而不是衰减)

矛盾点

  • Hahami:扰动投影衰减
  • Kedia:扰动方差增长

统一解释框架

关键区分:绝对大小 vs 相对贡献

扰动投影测量的是:

proj(δL,v)=δLvv\text{proj}(\delta_L, v) = \frac{\delta_L \cdot v}{\|v\|}

Kedia 的方差测量的是:

Var(δL)=E[δLE[δL]2]\text{Var}(\delta_L) = \mathbb{E}[\|\delta_L - \mathbb{E}[\delta_L]\|^2]

两者不是同一个量

修正的动力学模型

设注入扰动为 δ_0,方向为 v

残差累积(Kedia):

1
h_L = h_0 + δ_0 + Σ_i Δ_i

扰动被累积到信号中:

1
δ_L = δ_0 + residual_contribution

LayerNorm 的分散效应(Xiong):

  • J_LN 的行和为 0
  • 扰动被分散到多个正交方向
  • 保持总方差,但分散方向

关键推导

1
||δ_L||² ≈ ||δ_0||² + Σ_i ||Δ_i||²  (方差累积)

但投影:

1
δ_L · v = δ_0 · v + Σ_i Δ_i · v

如果 Δ_iv 正交(或随机),则:

1
δ_L · v ≈ δ_0 · v  (投影保持)

但:

1
||δ_L|| → ∞  (方差增长)

因此:

1
cos(δ_L, v) = (δ_L · v) / ||δ_L|| → 0  (相对贡献下降)

与 Hahami 观察的对应

观察量 理论预测 Hahami 观察 解释
** δ_L
δ_L · v 保持 投影(绝对值)保持
cos(δ_L, v) 下降 恢复到 1.0? 矛盾!
proj(δ_L, v) 保持 衰减 矛盾!

解决矛盾:重新理解 Hahami 的测量

可能的解释

关键假设:Hahami 测量的不是 δ_L,而是 h_inject - h_baseline

设:

  • h_baseline = 基线激活(无注入)
  • h_inject = 注入后激活
  • δ_L = h_inject - h_baseline

LayerNorm 的作用

1
2
h_baseline_L = f_L(h_baseline_{L-1})
h_inject_L = f_L(h_inject_{L-1})

由于 LayerNorm 的归一化:

1
||h_baseline_L|| ≈ ||h_inject_L|| ≈ √d  (归一化后)

因此:

1
||δ_L|| = ||h_inject_L - h_baseline_L|| → 0  (两者都归一化到相同范数)

这才是衰减的真正来源!

修正后的动力学

1
2
h_baseline_L = LayerNorm(h_baseline_{L-1} + block_output)
h_inject_L = LayerNorm(h_inject_{L-1} + block_output)

由于 LayerNorm 将两个轨迹都归一化到 ||·|| = √d

1
||h_baseline_L - h_inject_L|| → 0  (收敛到相同轨迹)

这与 Hahami 的 Cosine similarity 恢复到 1.0 一致!


统一理论框架

三重效应

  1. LayerNorm 归一化(Xiong):

    • 将所有激活投影到单位球面
    • 导致不同轨迹收敛到相同范数
  2. 残差累积(Kedia):

    • 残差连接累积信号
    • 导致前向方差增长
  3. 轨迹收敛(Hahami):

    • LayerNorm 的 0-齐次性
    • 扰动轨迹被"拉回"基线轨迹

数学表达

h_L^0 为基线,h_L^δ 为注入后:

1
2
h_L^0 = LN(h_{L-1}^0 + Δ_L)
h_L^δ = LN(h_{L-1}^δ + Δ_L)

LayerNorm 的 0-齐次性:

1
LN(α·x) = LN(x)  (对所有 α > 0)

因此,如果 h_{L-1}^δ ≈ α·h_{L-1}^0

1
h_L^δ = LN(α·h_{L-1}^0 + Δ_L) ≈ LN(h_{L-1}^0 + Δ_L/α) ≈ h_L^0  (当 α → 1)

收敛机制:扰动的相对大小被稀释,LayerNorm 使轨迹收敛。


对内省窗口的意义

修正后的假说

内省窗口的边界由轨迹收敛速率决定

收敛速率

  • 取决于 LayerNorm 的归一化强度
  • 取决于残差累积的稀释速度
  • 取决于 block_output 的贡献大小

预测

  1. Pre-LN vs Post-LN

    • Pre-LN:残差连接绕过 LayerNorm → 收敛更慢 → 窗口更大
    • Post-LN:LayerNorm 在残差连接之后 → 收敛更快 → 窗口更小
  2. 深度效应

    • 更深的模型 → 更多层累积 → 但窗口位置比例不变(~6.25%)
  3. Block 贡献

    • 更大的 block_output → 更快稀释扰动 → 窗口更小

验证方向

验证轨迹收敛假说

  1. 测量轨迹距离

    1
    distance = ||h_inject_L - h_baseline_L||

    预期:距离收敛到 0

  2. 对比 Pre-LN 和 Post-LN
    预期:Post-LN 收敛更快

  3. 修改 block_output 大小
    预期:更大的 block_output 加速收敛


结论

核心发现

  • 残差衰减不是 LayerNorm 谱范数 < 1 导致的
  • 而是 LayerNorm 归一化 + 残差稀释 的复合效应
  • 扰动轨迹被"拉回"基线轨迹,导致投影衰减

理论整合

  • Xiong (2020):LayerNorm 的谱性质 → 归一化效应
  • Kedia (2024):信号传播理论 → 残差累积
  • Hahami (2025):轨迹收敛 → 内省窗口

对内省窗口的启示

  • 窗口边界由轨迹收敛速率决定
  • 可以通过修改 LayerNorm 或残差连接来调节窗口

关键引用


最后更新: 2026-03-16 18:30
核心发现: 残差衰减来自 LayerNorm 归一化导致的轨迹收敛,而非谱范数 < 1。Xiong 的谱性质理论、Kedia 的信号传播理论和 Hahami 的残差恢复观察可以通过"轨迹收敛框架"统一解释。