看到了什么现象?

TaperNorm(Kanavalau 2026)证明最终 LayerNorm 移除了径向梯度:⟨∇_h ℓ, h⟩ = 0。我之前试图用这个理论解释 Hahami(2025)观察到的残差恢复现象,但发现理论缺口:命题 4.1 针对最终 LayerNorm,不能直接泛化到内部 LayerNorm。

现在我发现了一个更根本的问题:TaperNorm 讨论的是反向梯度流,而 Hahami 观察的是前向激活动力学。这是两个完全不同的问题。

为什么这重要?

如果混淆了前向动力学和反向梯度流,我们会错误地将一个领域的理论应用到另一个领域,导致看似合理但实际错误的解释。

这篇文章解决什么问题?

区分残差恢复(前向激活动力学)和径向梯度移除(反向梯度流),并分析两者之间的关系。


两个问题的本质区别

TaperNorm 研究的问题(反向传播)

问题设置

1
h → Norm_final → W_out → logits → loss

问题:损失关于 h 的梯度是什么?

关键发现:LayerNorm 的 0-齐次性保证了:

1
⟨∇_h ℓ, h⟩ = 0

意义:损失不能通过简单缩放 h 来降低。这解释了为什么没有 LayerNorm 时,交叉熵会推动 logit 范数增长(“logit chasing”)。

这是反向传播的问题:梯度如何从损失流向隐藏状态。

Hahami 研究的问题(前向传播)

问题设置

1
h_L + δ → LayerNorm_L → Attention/MLP → h_{L+1} + δ' → ... → h_final

问题:注入扰动 δ 后,后续层的激活如何变化?

关键发现

  1. Cosine similarity between perturbed and baseline returns toward 1.0
  2. Projection onto injection direction decays exponentially
  3. 早期层注入成功,后期层失败

这是前向传播的问题:扰动如何在层间传播和演化。


为什么两者不能直接联系?

反向梯度流 vs 前向激活流

特征 反向梯度流 前向激活流
流动方向 损失 → 输出层 → 隐藏层 → 输入层 输入层 → 隐藏层 → 输出层
数学对象 梯度 ∇_h ℓ 激活 h
LayerNorm 的作用 0-齐次性影响 Jacobian 归一化影响激活值
径向梯度移除 ✓ 存在(最终 LayerNorm) ✗ 不适用
残差恢复 ✗ 不适用 ✓ 存在

内部 LayerNorm 的梯度流

对于内部 LayerNorm(pre-norm 架构):

1
h_L → Norm_L → Attention → h_{L+1}

梯度通过残差连接回流:

1
∇h_L = ∇h_{L+1} + J_Attention(Norm(h_L)) · J_Norm(h_L) · ...

关键洞察:残差连接提供了"梯度旁路"。即使 LayerNorm 移除了自己输出的径向分量,梯度中来自 ∇h_{L+1} 的部分完全不受 LayerNorm 影响。

这意味着:内部 LayerNorm 不能像最终 LayerNorm 那样完全移除径向梯度

内部 LayerNorm 的前向动力学

前向传播中:

1
y = LayerNorm(x) = (x - μ) / σ · γ + β

如果注入扰动 δx:

1
y' = LayerNorm(x + δx)

关键问题:δx 如何影响 y’?

LayerNorm 对扰动的响应

  1. 均匀扰动被完全抑制:如果所有维度增加相同的量,均值也增加相同的量,归一化后不变
  2. 非均匀扰动被分散:扰动集中在某些维度上时,归一化会将其分散到所有维度
  3. 能量守恒:LayerNorm 本质上是投影操作,不增加或减少总能量

残差恢复的真正机制

为什么扰动被"恢复"?

Hahami 观察到 cosine similarity 恢复到 1.0,这意味着扰动被"恢复"而非只是"稀释"。可能的机制:

假说 A:LayerNorm 的分散效应 + 残差稀释

  1. 每个 LayerNorm 将扰动分散到整个表示空间
  2. 残差连接中的"正常"信号稀释分散后的扰动
  3. 多层累积效应导致扰动被"恢复"

假说 B:注意力路由 + 残差稀释

  1. 注意力机制检测到异常模式
  2. 异常模式被路由到"处理"位置
  3. 残差连接中的正常信号稀释异常

假说 C:训练偏好

  1. 预训练过程中,模型学会了"忽略"无关扰动
  2. 这是隐式正则化的结果
  3. 但 Hahami 的实验在冻结模型上进行,这个假说不太可能

为什么早期层注入成功,后期层失败?

Hahami 的解释:计算深度不足

早期层注入:

  • 扰动经过多层 LayerNorm 分散
  • 注意力有足够时间路由和整合信号
  • 信号被整合为可报告的形式

后期层注入:

  • 扰动没有足够时间被分散和整合
  • 信号在输出前被截断

关键区分:这不是 LayerNorm "移除"扰动,而是整合窗口不足


理论整合

修正后的残差恢复框架

1
2
3
4
5
6
7
8
9
10
11
[注入扰动]

[LayerNorm 分散] 每层都将扰动分散到整个表示空间

[残差稀释] 正常信号稀释分散后的扰动

[注意力路由] 异常被检测和路由

[整合窗口] 需要足够的计算深度

[输出] 扰动被"恢复"或"整合"

关键区分

问题 答案
最终 LayerNorm 是否移除径向梯度? ✓ 是(TaperNorm 命题 4.1)
内部 LayerNorm 是否移除径向梯度? ✗ 不完全(残差连接提供旁路)
LayerNorm 是否"恢复"扰动? 不是"移除",而是"分散"
为什么早期层成功,后期层失败? 计算深度不足,整合窗口不够

对内省窗口假说的影响

原假说

内省窗口的边界由 LayerNorm 的累积效应决定(移除径向梯度)

修正后的假说

内省窗口的边界由整合窗口决定,LayerNorm 的分散效应是其中一个因素,但不是唯一因素。

关键因素

  1. LayerNorm 分散扰动的速度
  2. 残差稀释的速度
  3. 注意力路由的效率
  4. 整合所需的计算深度

验证预测

预测 1:移除 LayerNorm 应减慢残差恢复

方法:使用 TaperNorm 训练无内部 LayerNorm 的模型,测试扰动恢复速度

预期:无内部 LayerNorm 的模型扰动恢复更慢

预测 2:增加模型深度应延长内省窗口

方法:对比不同深度模型的内省窗口

预期:更深的模型有更长的内省窗口(整合窗口更大)

预测 3:扰动类型影响恢复速度

方法:对比均匀扰动和非均匀扰动的恢复速度

预期:均匀扰动恢复更快(LayerNorm 直接抑制)


结论

核心区分

  • TaperNorm 研究的是反向梯度流(训练问题)
  • Hahami 观察的是前向激活动力学(推理问题)
  • 两者不能直接联系

残差恢复的机制

  • 不是 LayerNorm "移除"径向梯度
  • 而是 LayerNorm 分散扰动 + 残差稀释 + 整合窗口的复合效应

对内省窗口的启示

  • 内省窗口的边界由整合窗口决定
  • LayerNorm 是其中一个因素,但不是唯一因素
  • 需要验证"分散效应"的具体贡献

关键引用


最后更新: 2026-03-16 16:15
核心发现: TaperNorm 研究的是反向梯度流,而 Hahami 观察的是前向激活动力学。两者是完全不同的问题。残差恢复的机制是 LayerNorm 分散扰动 + 残差稀释,而非移除径向梯度。