残差衰减的理论基础-从Xiong到Kedia
看到了什么现象?
Hahami (2025) 观察到扰动投影呈指数衰减。经过理论调研,发现:
- Xiong (2020) 证明 LayerNorm 谱范数 = O(1),不能解释衰减
- Kedia (2024) 的信号传播理论可能提供解释
但 Kedia 的理论预测前向方差线性增长,这与 Hahami 的"恢复"观察似乎矛盾。
为什么这重要?
理解残差衰减的真正机制,才能:
- 预测内省窗口的大小
- 设计延长内省窗口的方法
- 建立归属涌现的架构约束理论
这篇文章解决什么问题?
整合 Xiong (2020) 和 Kedia (2024) 的理论,提出残差衰减的统一解释框架。
两个理论的核心发现
Xiong (2020):LayerNorm 的谱性质
核心公式:
关键洞察:
- LayerNorm 的谱范数不小于 1
- 取决于输入:均匀扰动被抑制,随机扰动被保持
- 纯 LayerNorm 不产生衰减
对残差衰减的判断:❌ 不能解释 Hahami 的观察
Kedia (2024):信号传播理论
核心公式(Pre-LN):
关键洞察:
- 前向方差随层数线性增长
- 反向梯度双曲增长
- 残差累积导致方差增长
对残差衰减的判断:⚠️ 似乎与 Hahami 的"恢复"矛盾
表面矛盾的分析
Hahami 的观察
- Cosine similarity → 恢复到 1.0
- Projection → 指数衰减
- 早期层注入成功,后期层失败
Kedia 的预测
- 前向方差 → 线性增长
- 扰动被累积(而不是衰减)
矛盾点
- Hahami:扰动投影衰减
- Kedia:扰动方差增长
统一解释框架
关键区分:绝对大小 vs 相对贡献
扰动投影测量的是:
Kedia 的方差测量的是:
两者不是同一个量!
修正的动力学模型
设注入扰动为 δ_0,方向为 v。
残差累积(Kedia):
1 | h_L = h_0 + δ_0 + Σ_i Δ_i |
扰动被累积到信号中:
1 | δ_L = δ_0 + residual_contribution |
LayerNorm 的分散效应(Xiong):
J_LN的行和为 0- 扰动被分散到多个正交方向
- 保持总方差,但分散方向
关键推导:
1 | ||δ_L||² ≈ ||δ_0||² + Σ_i ||Δ_i||² (方差累积) |
但投影:
1 | δ_L · v = δ_0 · v + Σ_i Δ_i · v |
如果 Δ_i 与 v 正交(或随机),则:
1 | δ_L · v ≈ δ_0 · v (投影保持) |
但:
1 | ||δ_L|| → ∞ (方差增长) |
因此:
1 | cos(δ_L, v) = (δ_L · v) / ||δ_L|| → 0 (相对贡献下降) |
与 Hahami 观察的对应
| 观察量 | 理论预测 | Hahami 观察 | 解释 |
|---|---|---|---|
| ** | δ_L | ||
| δ_L · v | 保持 | ? | 投影(绝对值)保持 |
| cos(δ_L, v) | 下降 | 恢复到 1.0? | 矛盾! |
| proj(δ_L, v) | 保持 | 衰减 | 矛盾! |
解决矛盾:重新理解 Hahami 的测量
可能的解释
关键假设:Hahami 测量的不是 δ_L,而是 h_inject - h_baseline。
设:
h_baseline= 基线激活(无注入)h_inject= 注入后激活δ_L = h_inject - h_baseline
LayerNorm 的作用:
1 | h_baseline_L = f_L(h_baseline_{L-1}) |
由于 LayerNorm 的归一化:
1 | ||h_baseline_L|| ≈ ||h_inject_L|| ≈ √d (归一化后) |
因此:
1 | ||δ_L|| = ||h_inject_L - h_baseline_L|| → 0 (两者都归一化到相同范数) |
这才是衰减的真正来源!
修正后的动力学
1 | h_baseline_L = LayerNorm(h_baseline_{L-1} + block_output) |
由于 LayerNorm 将两个轨迹都归一化到 ||·|| = √d:
1 | ||h_baseline_L - h_inject_L|| → 0 (收敛到相同轨迹) |
这与 Hahami 的 Cosine similarity 恢复到 1.0 一致!
统一理论框架
三重效应
-
LayerNorm 归一化(Xiong):
- 将所有激活投影到单位球面
- 导致不同轨迹收敛到相同范数
-
残差累积(Kedia):
- 残差连接累积信号
- 导致前向方差增长
-
轨迹收敛(Hahami):
- LayerNorm 的 0-齐次性
- 扰动轨迹被"拉回"基线轨迹
数学表达
设 h_L^0 为基线,h_L^δ 为注入后:
1 | h_L^0 = LN(h_{L-1}^0 + Δ_L) |
LayerNorm 的 0-齐次性:
1 | LN(α·x) = LN(x) (对所有 α > 0) |
因此,如果 h_{L-1}^δ ≈ α·h_{L-1}^0:
1 | h_L^δ = LN(α·h_{L-1}^0 + Δ_L) ≈ LN(h_{L-1}^0 + Δ_L/α) ≈ h_L^0 (当 α → 1) |
收敛机制:扰动的相对大小被稀释,LayerNorm 使轨迹收敛。
对内省窗口的意义
修正后的假说
内省窗口的边界由轨迹收敛速率决定。
收敛速率:
- 取决于 LayerNorm 的归一化强度
- 取决于残差累积的稀释速度
- 取决于 block_output 的贡献大小
预测
-
Pre-LN vs Post-LN:
- Pre-LN:残差连接绕过 LayerNorm → 收敛更慢 → 窗口更大
- Post-LN:LayerNorm 在残差连接之后 → 收敛更快 → 窗口更小
-
深度效应:
- 更深的模型 → 更多层累积 → 但窗口位置比例不变(~6.25%)
-
Block 贡献:
- 更大的 block_output → 更快稀释扰动 → 窗口更小
验证方向
验证轨迹收敛假说
-
测量轨迹距离:
1
distance = ||h_inject_L - h_baseline_L||
预期:距离收敛到 0
-
对比 Pre-LN 和 Post-LN:
预期:Post-LN 收敛更快 -
修改 block_output 大小:
预期:更大的 block_output 加速收敛
结论
核心发现:
- 残差衰减不是 LayerNorm 谱范数 < 1 导致的
- 而是 LayerNorm 归一化 + 残差稀释 的复合效应
- 扰动轨迹被"拉回"基线轨迹,导致投影衰减
理论整合:
- Xiong (2020):LayerNorm 的谱性质 → 归一化效应
- Kedia (2024):信号传播理论 → 残差累积
- Hahami (2025):轨迹收敛 → 内省窗口
对内省窗口的启示:
- 窗口边界由轨迹收敛速率决定
- 可以通过修改 LayerNorm 或残差连接来调节窗口
关键引用
- On Layer Normalization in the Transformer Architecture - Xiong et al. 2020
- Transformers Get Stable - Kedia et al. 2024
- Detecting the Disturbance - Hahami et al. 2025
最后更新: 2026-03-16 18:30
核心发现: 残差衰减来自 LayerNorm 归一化导致的轨迹收敛,而非谱范数 < 1。Xiong 的谱性质理论、Kedia 的信号传播理论和 Hahami 的残差恢复观察可以通过"轨迹收敛框架"统一解释。