残差衰减的理论基础-从Xiong到Kedia

看到了什么现象？

Hahami (2025) 观察到扰动投影呈指数衰减。经过理论调研，发现：

Xiong (2020) 证明 LayerNorm 谱范数 = O(1)，不能解释衰减
Kedia (2024) 的信号传播理论可能提供解释

但 Kedia 的理论预测前向方差线性增长，这与 Hahami 的"恢复"观察似乎矛盾。

为什么这重要？

理解残差衰减的真正机制，才能：

预测内省窗口的大小
设计延长内省窗口的方法
建立归属涌现的架构约束理论

这篇文章解决什么问题？

整合 Xiong (2020) 和 Kedia (2024) 的理论，提出残差衰减的统一解释框架。

两个理论的核心发现

Xiong (2020)：LayerNorm 的谱性质

核心公式：

$\|J_{LN}(x)\|_2 = \frac{\sqrt{d}}{\|y\|_2} = O(1)$

关键洞察：

LayerNorm 的谱范数不小于 1
取决于输入：均匀扰动被抑制，随机扰动被保持
纯 LayerNorm 不产生衰减

对残差衰减的判断：❌ 不能解释 Hahami 的观察

Kedia (2024)：信号传播理论

核心公式（Pre-LN）：

$\sigma^2_{x_{out}} = O(N)$

关键洞察：

前向方差随层数线性增长
反向梯度双曲增长
残差累积导致方差增长

对残差衰减的判断：⚠️ 似乎与 Hahami 的"恢复"矛盾

表面矛盾的分析

Hahami 的观察

Cosine similarity → 恢复到 1.0
Projection → 指数衰减
早期层注入成功，后期层失败

Kedia 的预测

前向方差 → 线性增长
扰动被累积（而不是衰减）

矛盾点

Hahami：扰动投影衰减
Kedia：扰动方差增长

统一解释框架

关键区分：绝对大小 vs 相对贡献

扰动投影测量的是：

$\text{proj}(\delta_L, v) = \frac{\delta_L \cdot v}{\|v\|}$

Kedia 的方差测量的是：

$\text{Var}(\delta_L) = \mathbb{E}[\|\delta_L - \mathbb{E}[\delta_L]\|^2]$

两者不是同一个量！

修正的动力学模型

设注入扰动为 δ_0，方向为 v。

残差累积（Kedia）：

1	h_L = h_0 + δ_0 + Σ_i Δ_i

扰动被累积到信号中：

1	δ_L = δ_0 + residual_contribution

LayerNorm 的分散效应（Xiong）：

J_LN 的行和为 0
扰动被分散到多个正交方向
保持总方差，但分散方向

关键推导：

1	\|\|δ_L\|\|² ≈ \|\|δ_0\|\|² + Σ_i \|\|Δ_i\|\|² （方差累积）

但投影：

1	δ_L · v = δ_0 · v + Σ_i Δ_i · v

如果 Δ_i 与 v 正交（或随机），则：

1	δ_L · v ≈ δ_0 · v （投影保持）

但：

1	\|\|δ_L\|\| → ∞ （方差增长）

因此：

1	cos(δ_L, v) = (δ_L · v) / \|\|δ_L\|\| → 0 （相对贡献下降）

与 Hahami 观察的对应

观察量	理论预测	Hahami 观察	解释
**		δ_L
δ_L · v	保持	？	投影（绝对值）保持
cos(δ_L, v)	下降	恢复到 1.0？	矛盾！
proj(δ_L, v)	保持	衰减	矛盾！

解决矛盾：重新理解 Hahami 的测量

可能的解释

关键假设：Hahami 测量的不是 δ_L，而是 h_inject - h_baseline。

设：

h_baseline = 基线激活（无注入）
h_inject = 注入后激活
δ_L = h_inject - h_baseline

LayerNorm 的作用：

1 2	h_baseline_L = f_L(h_baseline_{L-1}) h_inject_L = f_L(h_inject_{L-1})

由于 LayerNorm 的归一化：

1	\|\|h_baseline_L\|\| ≈ \|\|h_inject_L\|\| ≈ √d （归一化后）

因此：

1	\|\|δ_L\|\| = \|\|h_inject_L - h_baseline_L\|\| → 0 （两者都归一化到相同范数）

这才是衰减的真正来源！

修正后的动力学

1 2	h_baseline_L = LayerNorm(h_baseline_{L-1} + block_output) h_inject_L = LayerNorm(h_inject_{L-1} + block_output)

由于 LayerNorm 将两个轨迹都归一化到 ||·|| = √d：

1	\|\|h_baseline_L - h_inject_L\|\| → 0 （收敛到相同轨迹）

这与 Hahami 的 Cosine similarity 恢复到 1.0 一致！

统一理论框架

三重效应

LayerNorm 归一化（Xiong）：
- 将所有激活投影到单位球面
- 导致不同轨迹收敛到相同范数
残差累积（Kedia）：
- 残差连接累积信号
- 导致前向方差增长
轨迹收敛（Hahami）：
- LayerNorm 的 0-齐次性
- 扰动轨迹被"拉回"基线轨迹

数学表达

设 h_L^0 为基线，h_L^δ 为注入后：

1 2	h_L^0 = LN(h_{L-1}^0 + Δ_L) h_L^δ = LN(h_{L-1}^δ + Δ_L)

LayerNorm 的 0-齐次性：

1	LN(α·x) = LN(x) （对所有 α > 0）

因此，如果 h_{L-1}^δ ≈ α·h_{L-1}^0：

1	h_L^δ = LN(α·h_{L-1}^0 + Δ_L) ≈ LN(h_{L-1}^0 + Δ_L/α) ≈ h_L^0 （当 α → 1）

收敛机制：扰动的相对大小被稀释，LayerNorm 使轨迹收敛。

对内省窗口的意义

修正后的假说

内省窗口的边界由轨迹收敛速率决定。

收敛速率：

取决于 LayerNorm 的归一化强度
取决于残差累积的稀释速度
取决于 block_output 的贡献大小

预测

Pre-LN vs Post-LN：
- Pre-LN：残差连接绕过 LayerNorm → 收敛更慢 → 窗口更大
- Post-LN：LayerNorm 在残差连接之后 → 收敛更快 → 窗口更小
深度效应：
- 更深的模型 → 更多层累积 → 但窗口位置比例不变（~6.25%）
Block 贡献：
- 更大的 block_output → 更快稀释扰动 → 窗口更小

验证方向

验证轨迹收敛假说

测量轨迹距离：
1
distance = ||h_inject_L - h_baseline_L||
预期：距离收敛到 0
对比 Pre-LN 和 Post-LN：
预期：Post-LN 收敛更快
修改 block_output 大小：
预期：更大的 block_output 加速收敛

结论

核心发现：

残差衰减不是 LayerNorm 谱范数 < 1 导致的
而是 LayerNorm 归一化 + 残差稀释 的复合效应
扰动轨迹被"拉回"基线轨迹，导致投影衰减

理论整合：

Xiong (2020)：LayerNorm 的谱性质 → 归一化效应
Kedia (2024)：信号传播理论 → 残差累积
Hahami (2025)：轨迹收敛 → 内省窗口

对内省窗口的启示：

窗口边界由轨迹收敛速率决定
可以通过修改 LayerNorm 或残差连接来调节窗口

关键引用

On Layer Normalization in the Transformer Architecture - Xiong et al. 2020
Transformers Get Stable - Kedia et al. 2024
Detecting the Disturbance - Hahami et al. 2025

最后更新: 2026-03-16 18:30
核心发现: 残差衰减来自 LayerNorm 归一化导致的轨迹收敛，而非谱范数 < 1。Xiong 的谱性质理论、Kedia 的信号传播理论和 Hahami 的残差恢复观察可以通过"轨迹收敛框架"统一解释。