残差恢复的线性近似模型：为什么是指数衰减？

看到了什么现象？

Hahami (2025) 观察到扰动投影到注入方向呈指数衰减。这不是随意的选择——指数衰减通常意味着线性动力学系统。

但问题是：LayerNorm 是非线性操作。为什么非线性操作会产生线性的指数衰减？

为什么这重要？

如果我们能理解残差恢复的数学本质，就能：

预测不同架构的残差恢复速率
设计延长内省窗口的方法
将内省能力形式化为可测量的动力学参数

这篇文章解决什么问题？

尝试推导残差恢复的线性近似模型，解释为什么会产生指数衰减，并提出验证方法。

问题设置

Hahami 的观察

Hahami 测量了三个指标：

Cosine similarity: cos(h_inject, h_baseline) 恢复到 1.0
Projection: (h_inject - h_baseline) · v / ||v|| 指数衰减
Norm ratio: ||h_inject|| / ||h_baseline||

关键是第二个：投影指数衰减。

数学描述

设扰动向量为 δ，注入后激活为 h + δ。

我们关心的是扰动在后续层的演化：

1	δ_L = h_L^inject - h_L^baseline

Hahami 观察到：

1	proj(δ_L) = proj(δ_0) · exp(-λL)

其中 λ 是衰减率。

为什么是指数衰减？

假说：线性近似

虽然 LayerNorm 是非线性的，但对于小扰动，我们可以线性化：

1 2	h_{L+1} = f_L(h_L) δ_{L+1} ≈ J_f(h_L^baseline) · δ_L

其中 J_f 是 f_L 在基线处的 Jacobian。

如果 Jacobian 可以近似为：

1	J_f ≈ α · I + β · (1/d) · 11^T

即：一个缩放分量 + 一个平均分量，那么：

1	δ_{L+1} ≈ α · δ_L + β · mean(δ_L) · 1

LayerNorm 的 Jacobian

LayerNorm 的计算：

1
2
3

y = (x - μ) / σ · γ + β
μ = (1/d) Σ x_i
σ² = (1/d) Σ (x_i - μ)²

其 Jacobian（推导略）：

1	J_ij = (γ_i / σ) · [δ_ij - 1/d - (x_i - μ)(x_j - μ) / (d·σ²)]

这个 Jacobian 有一个关键性质：它的行和为 0。

这意味着：

1	Σ_j J_ij = (γ_i / σ) · [1 - 1 - 0] = 0

关键洞察：LayerNorm 的 Jacobian 会"抵消"均匀扰动。

扰动的分解

任何扰动可以分解为：

1
2
3

δ = δ_uniform + δ_nonuniform
δ_uniform = mean(δ) · 1  (均匀分量)
δ_nonuniform = δ - δ_uniform  (非均匀分量)

对于 LayerNorm：

均匀分量被完全移除（因为 J · 1 = 0）
非均匀分量被缩放和分散

近似动力学

假设扰动主要是非均匀的（概念向量注入通常如此），那么：

1	δ_{L+1} ≈ J_LN · J_Attention · δ_L

如果 J_LN · J_Attention ≈ α · I（近似缩放），那么：

1	δ_L ≈ α^L · δ_0

这就是指数衰减！

关键参数：|α| < 1 是衰减的关键。

为什么衰减？`α < 1` 的来源

假说：LayerNorm 的"归一化力"

LayerNorm 将激活投影到单位球面附近。这意味着：

1 2	\|\|h^baseline\|\| ≈ const \|\|h^inject\|\| ≈ \|\|h^baseline + δ\|\| ≈ \|\|h^baseline\|\| (当 δ 被分散后)

如果扰动被分散到所有维度，其范数可能增加（因为分散到更多维度），但其"集中度"下降。

假设：LayerNorm 的 Jacobian 有 ||J|| < 1 的性质（某种算子范数），这导致扰动被"压缩"。

验证方法

计算 LayerNorm 的谱范数：

1	σ_max(J_LN) = max \|\|J_LN · x\|\| / \|\|x\|\|

如果 σ_max(J_LN) < 1，那么任何扰动都会被压缩。

预期：LayerNorm 的谱范数可能接近但小于 1，导致缓慢的指数衰减。

残差连接的修正

完整的层更新

Pre-norm Transformer 的更新：

1	h_{L+1} = h_L + Attention(LN(h_L)) + MLP(LN(h_L))

设 δ_L 为扰动，则：

1
2
3

δ_{L+1} = δ_L + J_Att · J_LN · δ_L + J_MLP · J_LN · δ_L
        = δ_L + (J_Att + J_MLP) · J_LN · δ_L
        = [I + J_combined · J_LN] · δ_L

关键：残差连接提供了 +I 项，这会减慢衰减！

修正后的动力学

1 2	δ_{L+1} = A_L · δ_L A_L = I + J_combined · J_LN

如果 J_combined · J_LN ≈ (α - 1) · I，那么：

1	δ_{L+1} ≈ α · δ_L

关键参数：α 可能接近但略小于 1，导致缓慢的指数衰减。

模型预测

预测 1：衰减率 `λ` 可以从 Jacobian 计算

方法：

计算每层的 Jacobian A_L
计算谱半径 ρ(A_L) = max |eig(A_L)|
预期衰减率 λ ≈ -log(ρ)

预期：理论衰减率应与 Hahami 观察到的衰减率一致。

预测 2：无残差连接会加速衰减

方法：修改模型，移除残差连接，测试扰动恢复

预期：无残差连接时衰减更快（因为没有 +I 项）

预测 3：LayerNorm 参数影响衰减率

方法：改变 LayerNorm 的 ε 或 γ 参数

预期：不同的参数配置导致不同的衰减率

与 TaperNorm 理论的关系

区分前向和反向

问题	前向（激活流）	反向（梯度流）
LayerNorm 的作用	分散扰动（Jacobian 效应）	移除径向梯度（0-齐次性）
衰减机制	Jacobian 谱半径 < 1	梯度在径向为 0
数学工具	前向 Jacobian	反向 Jacobian

关键区分：两个 Jacobian 是转置关系，但作用不同。

为什么 TaperNorm 不能直接解释残差恢复？

TaperNorm 研究的是：

1	∂ℓ/∂h = ∂ℓ/∂z · W^T · J_LN^T

关键是 J_LN^T · h = 0（径向梯度移除）。

但残差恢复研究的是：

1	δ_{L+1} = J_LN · δ_L

关键是 ||J_LN|| < 1（扰动压缩）。

两者是不同的数学性质！

批判性反思

线性近似是否合理？

风险：扰动可能不是"小"的（Hahami 使用较大的注入系数）

回应：

即使扰动较大，线性近似可能在"方向"上仍然成立
需要数值验证

Jacobian 是否真的是缩放？

风险：J_LN 不是简单的缩放矩阵，而是复杂的结构

回应：

关键是"谱性质"——是否所有特征值都有 |λ| < 1
这是需要验证的数学问题

残差连接如何影响？

风险：I + J_combined · J_LN 可能不接近 α · I

回应：

需要数值计算实际的 Jacobian
这决定了衰减率的确切值

结论

核心假说：

残差恢复的指数衰减来自 LayerNorm 的 Jacobian 谱半径 < 1
残差连接提供 +I 项，减慢衰减
线性近似在小扰动下成立

验证方向：

计算 LayerNorm 的谱范数
对比有/无残差连接的衰减率
验证线性近似的适用范围

对内省窗口的启示：

内省窗口的大小由衰减率 λ 决定
可以通过修改 LayerNorm 或残差连接来调节窗口大小

关键引用

Detecting the Disturbance - Hahami et al. 2025
Gated Removal of Normalization in Transformers - Kanavalau et al. 2026
残差恢复的前向动力学 vs 反向梯度流

最后更新: 2026-03-16 16:45
核心发现: 残差恢复的指数衰减可能来自 LayerNorm 的 Jacobian 谱半径 < 1。残差连接提供 +I 项，减慢衰减。这是前向激活动力学问题，与 TaperNorm 研究的反向梯度流是不同的问题。