看到了什么现象?

Hahami (2025) 观察到扰动投影到注入方向呈指数衰减。这不是随意的选择——指数衰减通常意味着线性动力学系统。

但问题是:LayerNorm 是非线性操作。为什么非线性操作会产生线性的指数衰减?

为什么这重要?

如果我们能理解残差恢复的数学本质,就能:

  1. 预测不同架构的残差恢复速率
  2. 设计延长内省窗口的方法
  3. 将内省能力形式化为可测量的动力学参数

这篇文章解决什么问题?

尝试推导残差恢复的线性近似模型,解释为什么会产生指数衰减,并提出验证方法。


问题设置

Hahami 的观察

Hahami 测量了三个指标:

  1. Cosine similarity: cos(h_inject, h_baseline) 恢复到 1.0
  2. Projection: (h_inject - h_baseline) · v / ||v|| 指数衰减
  3. Norm ratio: ||h_inject|| / ||h_baseline||

关键是第二个:投影指数衰减

数学描述

设扰动向量为 δ,注入后激活为 h + δ

我们关心的是扰动在后续层的演化:

1
δ_L = h_L^inject - h_L^baseline

Hahami 观察到:

1
proj(δ_L) = proj(δ_0) · exp(-λL)

其中 λ 是衰减率。


为什么是指数衰减?

假说:线性近似

虽然 LayerNorm 是非线性的,但对于小扰动,我们可以线性化:

1
2
h_{L+1} = f_L(h_L)
δ_{L+1} ≈ J_f(h_L^baseline) · δ_L

其中 J_ff_L 在基线处的 Jacobian。

如果 Jacobian 可以近似为:

1
J_f ≈ α · I + β · (1/d) · 11^T

即:一个缩放分量 + 一个平均分量,那么:

1
δ_{L+1} ≈ α · δ_L + β · mean(δ_L) · 1

LayerNorm 的 Jacobian

LayerNorm 的计算:

1
2
3
y = (x - μ) / σ · γ + β
μ = (1/d) Σ x_i
σ² = (1/d) Σ (x_i - μ)²

其 Jacobian(推导略):

1
J_ij = (γ_i / σ) · [δ_ij - 1/d - (x_i - μ)(x_j - μ) / (d·σ²)]

这个 Jacobian 有一个关键性质:它的行和为 0

这意味着:

1
Σ_j J_ij = (γ_i / σ) · [1 - 1 - 0] = 0

关键洞察:LayerNorm 的 Jacobian 会"抵消"均匀扰动。

扰动的分解

任何扰动可以分解为:

1
2
3
δ = δ_uniform + δ_nonuniform
δ_uniform = mean(δ) · 1 (均匀分量)
δ_nonuniform = δ - δ_uniform (非均匀分量)

对于 LayerNorm:

  • 均匀分量被完全移除(因为 J · 1 = 0
  • 非均匀分量被缩放和分散

近似动力学

假设扰动主要是非均匀的(概念向量注入通常如此),那么:

1
δ_{L+1} ≈ J_LN · J_Attention · δ_L

如果 J_LN · J_Attention ≈ α · I(近似缩放),那么:

1
δ_L ≈ α^L · δ_0

这就是指数衰减

关键参数|α| < 1 是衰减的关键。


为什么衰减?α < 1 的来源

假说:LayerNorm 的"归一化力"

LayerNorm 将激活投影到单位球面附近。这意味着:

1
2
||h^baseline|| ≈ const
||h^inject|| ≈ ||h^baseline + δ|| ≈ ||h^baseline|| (当 δ 被分散后)

如果扰动被分散到所有维度,其范数可能增加(因为分散到更多维度),但其"集中度"下降。

假设:LayerNorm 的 Jacobian 有 ||J|| < 1 的性质(某种算子范数),这导致扰动被"压缩"。

验证方法

计算 LayerNorm 的谱范数

1
σ_max(J_LN) = max ||J_LN · x|| / ||x||

如果 σ_max(J_LN) < 1,那么任何扰动都会被压缩。

预期:LayerNorm 的谱范数可能接近但小于 1,导致缓慢的指数衰减。


残差连接的修正

完整的层更新

Pre-norm Transformer 的更新:

1
h_{L+1} = h_L + Attention(LN(h_L)) + MLP(LN(h_L))

δ_L 为扰动,则:

1
2
3
δ_{L+1} = δ_L + J_Att · J_LN · δ_L + J_MLP · J_LN · δ_L
= δ_L + (J_Att + J_MLP) · J_LN · δ_L
= [I + J_combined · J_LN] · δ_L

关键:残差连接提供了 +I 项,这会减慢衰减!

修正后的动力学

1
2
δ_{L+1} = A_L · δ_L
A_L = I + J_combined · J_LN

如果 J_combined · J_LN ≈ (α - 1) · I,那么:

1
δ_{L+1} ≈ α · δ_L

关键参数α 可能接近但略小于 1,导致缓慢的指数衰减


模型预测

预测 1:衰减率 λ 可以从 Jacobian 计算

方法

  1. 计算每层的 Jacobian A_L
  2. 计算谱半径 ρ(A_L) = max |eig(A_L)|
  3. 预期衰减率 λ ≈ -log(ρ)

预期:理论衰减率应与 Hahami 观察到的衰减率一致。

预测 2:无残差连接会加速衰减

方法:修改模型,移除残差连接,测试扰动恢复

预期:无残差连接时衰减更快(因为没有 +I 项)

预测 3:LayerNorm 参数影响衰减率

方法:改变 LayerNorm 的 εγ 参数

预期:不同的参数配置导致不同的衰减率


与 TaperNorm 理论的关系

区分前向和反向

问题 前向(激活流) 反向(梯度流)
LayerNorm 的作用 分散扰动(Jacobian 效应) 移除径向梯度(0-齐次性)
衰减机制 Jacobian 谱半径 < 1 梯度在径向为 0
数学工具 前向 Jacobian 反向 Jacobian

关键区分:两个 Jacobian 是转置关系,但作用不同。

为什么 TaperNorm 不能直接解释残差恢复?

TaperNorm 研究的是:

1
∂ℓ/∂h = ∂ℓ/∂z · W^T · J_LN^T

关键是 J_LN^T · h = 0(径向梯度移除)。

但残差恢复研究的是:

1
δ_{L+1} = J_LN · δ_L

关键是 ||J_LN|| < 1(扰动压缩)。

两者是不同的数学性质


批判性反思

线性近似是否合理?

风险:扰动可能不是"小"的(Hahami 使用较大的注入系数)

回应

  • 即使扰动较大,线性近似可能在"方向"上仍然成立
  • 需要数值验证

Jacobian 是否真的是缩放?

风险J_LN 不是简单的缩放矩阵,而是复杂的结构

回应

  • 关键是"谱性质"——是否所有特征值都有 |λ| < 1
  • 这是需要验证的数学问题

残差连接如何影响?

风险I + J_combined · J_LN 可能不接近 α · I

回应

  • 需要数值计算实际的 Jacobian
  • 这决定了衰减率的确切值

结论

核心假说

  • 残差恢复的指数衰减来自 LayerNorm 的 Jacobian 谱半径 < 1
  • 残差连接提供 +I 项,减慢衰减
  • 线性近似在小扰动下成立

验证方向

  1. 计算 LayerNorm 的谱范数
  2. 对比有/无残差连接的衰减率
  3. 验证线性近似的适用范围

对内省窗口的启示

  • 内省窗口的大小由衰减率 λ 决定
  • 可以通过修改 LayerNorm 或残差连接来调节窗口大小

关键引用


最后更新: 2026-03-16 16:45
核心发现: 残差恢复的指数衰减可能来自 LayerNorm 的 Jacobian 谱半径 < 1。残差连接提供 +I 项,减慢衰减。这是前向激活动力学问题,与 TaperNorm 研究的反向梯度流是不同的问题。