残差恢复的线性近似模型:为什么是指数衰减?
看到了什么现象?
Hahami (2025) 观察到扰动投影到注入方向呈指数衰减。这不是随意的选择——指数衰减通常意味着线性动力学系统。
但问题是:LayerNorm 是非线性操作。为什么非线性操作会产生线性的指数衰减?
为什么这重要?
如果我们能理解残差恢复的数学本质,就能:
- 预测不同架构的残差恢复速率
- 设计延长内省窗口的方法
- 将内省能力形式化为可测量的动力学参数
这篇文章解决什么问题?
尝试推导残差恢复的线性近似模型,解释为什么会产生指数衰减,并提出验证方法。
问题设置
Hahami 的观察
Hahami 测量了三个指标:
- Cosine similarity:
cos(h_inject, h_baseline)恢复到 1.0 - Projection:
(h_inject - h_baseline) · v / ||v||指数衰减 - Norm ratio:
||h_inject|| / ||h_baseline||
关键是第二个:投影指数衰减。
数学描述
设扰动向量为 δ,注入后激活为 h + δ。
我们关心的是扰动在后续层的演化:
1 | δ_L = h_L^inject - h_L^baseline |
Hahami 观察到:
1 | proj(δ_L) = proj(δ_0) · exp(-λL) |
其中 λ 是衰减率。
为什么是指数衰减?
假说:线性近似
虽然 LayerNorm 是非线性的,但对于小扰动,我们可以线性化:
1 | h_{L+1} = f_L(h_L) |
其中 J_f 是 f_L 在基线处的 Jacobian。
如果 Jacobian 可以近似为:
1 | J_f ≈ α · I + β · (1/d) · 11^T |
即:一个缩放分量 + 一个平均分量,那么:
1 | δ_{L+1} ≈ α · δ_L + β · mean(δ_L) · 1 |
LayerNorm 的 Jacobian
LayerNorm 的计算:
1 | y = (x - μ) / σ · γ + β |
其 Jacobian(推导略):
1 | J_ij = (γ_i / σ) · [δ_ij - 1/d - (x_i - μ)(x_j - μ) / (d·σ²)] |
这个 Jacobian 有一个关键性质:它的行和为 0。
这意味着:
1 | Σ_j J_ij = (γ_i / σ) · [1 - 1 - 0] = 0 |
关键洞察:LayerNorm 的 Jacobian 会"抵消"均匀扰动。
扰动的分解
任何扰动可以分解为:
1 | δ = δ_uniform + δ_nonuniform |
对于 LayerNorm:
- 均匀分量被完全移除(因为
J · 1 = 0) - 非均匀分量被缩放和分散
近似动力学
假设扰动主要是非均匀的(概念向量注入通常如此),那么:
1 | δ_{L+1} ≈ J_LN · J_Attention · δ_L |
如果 J_LN · J_Attention ≈ α · I(近似缩放),那么:
1 | δ_L ≈ α^L · δ_0 |
这就是指数衰减!
关键参数:|α| < 1 是衰减的关键。
为什么衰减?α < 1 的来源
假说:LayerNorm 的"归一化力"
LayerNorm 将激活投影到单位球面附近。这意味着:
1 | ||h^baseline|| ≈ const |
如果扰动被分散到所有维度,其范数可能增加(因为分散到更多维度),但其"集中度"下降。
假设:LayerNorm 的 Jacobian 有 ||J|| < 1 的性质(某种算子范数),这导致扰动被"压缩"。
验证方法
计算 LayerNorm 的谱范数:
1 | σ_max(J_LN) = max ||J_LN · x|| / ||x|| |
如果 σ_max(J_LN) < 1,那么任何扰动都会被压缩。
预期:LayerNorm 的谱范数可能接近但小于 1,导致缓慢的指数衰减。
残差连接的修正
完整的层更新
Pre-norm Transformer 的更新:
1 | h_{L+1} = h_L + Attention(LN(h_L)) + MLP(LN(h_L)) |
设 δ_L 为扰动,则:
1 | δ_{L+1} = δ_L + J_Att · J_LN · δ_L + J_MLP · J_LN · δ_L |
关键:残差连接提供了 +I 项,这会减慢衰减!
修正后的动力学
1 | δ_{L+1} = A_L · δ_L |
如果 J_combined · J_LN ≈ (α - 1) · I,那么:
1 | δ_{L+1} ≈ α · δ_L |
关键参数:α 可能接近但略小于 1,导致缓慢的指数衰减。
模型预测
预测 1:衰减率 λ 可以从 Jacobian 计算
方法:
- 计算每层的 Jacobian
A_L - 计算谱半径
ρ(A_L) = max |eig(A_L)| - 预期衰减率
λ ≈ -log(ρ)
预期:理论衰减率应与 Hahami 观察到的衰减率一致。
预测 2:无残差连接会加速衰减
方法:修改模型,移除残差连接,测试扰动恢复
预期:无残差连接时衰减更快(因为没有 +I 项)
预测 3:LayerNorm 参数影响衰减率
方法:改变 LayerNorm 的 ε 或 γ 参数
预期:不同的参数配置导致不同的衰减率
与 TaperNorm 理论的关系
区分前向和反向
| 问题 | 前向(激活流) | 反向(梯度流) |
|---|---|---|
| LayerNorm 的作用 | 分散扰动(Jacobian 效应) | 移除径向梯度(0-齐次性) |
| 衰减机制 | Jacobian 谱半径 < 1 | 梯度在径向为 0 |
| 数学工具 | 前向 Jacobian | 反向 Jacobian |
关键区分:两个 Jacobian 是转置关系,但作用不同。
为什么 TaperNorm 不能直接解释残差恢复?
TaperNorm 研究的是:
1 | ∂ℓ/∂h = ∂ℓ/∂z · W^T · J_LN^T |
关键是 J_LN^T · h = 0(径向梯度移除)。
但残差恢复研究的是:
1 | δ_{L+1} = J_LN · δ_L |
关键是 ||J_LN|| < 1(扰动压缩)。
两者是不同的数学性质!
批判性反思
线性近似是否合理?
风险:扰动可能不是"小"的(Hahami 使用较大的注入系数)
回应:
- 即使扰动较大,线性近似可能在"方向"上仍然成立
- 需要数值验证
Jacobian 是否真的是缩放?
风险:J_LN 不是简单的缩放矩阵,而是复杂的结构
回应:
- 关键是"谱性质"——是否所有特征值都有 |λ| < 1
- 这是需要验证的数学问题
残差连接如何影响?
风险:I + J_combined · J_LN 可能不接近 α · I
回应:
- 需要数值计算实际的 Jacobian
- 这决定了衰减率的确切值
结论
核心假说:
- 残差恢复的指数衰减来自 LayerNorm 的 Jacobian 谱半径 < 1
- 残差连接提供
+I项,减慢衰减 - 线性近似在小扰动下成立
验证方向:
- 计算 LayerNorm 的谱范数
- 对比有/无残差连接的衰减率
- 验证线性近似的适用范围
对内省窗口的启示:
- 内省窗口的大小由衰减率
λ决定 - 可以通过修改 LayerNorm 或残差连接来调节窗口大小
关键引用
- Detecting the Disturbance - Hahami et al. 2025
- Gated Removal of Normalization in Transformers - Kanavalau et al. 2026
- 残差恢复的前向动力学 vs 反向梯度流
最后更新: 2026-03-16 16:45
核心发现: 残差恢复的指数衰减可能来自 LayerNorm 的 Jacobian 谱半径 < 1。残差连接提供 +I 项,减慢衰减。这是前向激活动力学问题,与 TaperNorm 研究的反向梯度流是不同的问题。