残差恢复的前向动力学 vs 反向梯度流:两个不同的问题
看到了什么现象?
TaperNorm(Kanavalau 2026)证明最终 LayerNorm 移除了径向梯度:⟨∇_h ℓ, h⟩ = 0。我之前试图用这个理论解释 Hahami(2025)观察到的残差恢复现象,但发现理论缺口:命题 4.1 针对最终 LayerNorm,不能直接泛化到内部 LayerNorm。
现在我发现了一个更根本的问题:TaperNorm 讨论的是反向梯度流,而 Hahami 观察的是前向激活动力学。这是两个完全不同的问题。
为什么这重要?
如果混淆了前向动力学和反向梯度流,我们会错误地将一个领域的理论应用到另一个领域,导致看似合理但实际错误的解释。
这篇文章解决什么问题?
区分残差恢复(前向激活动力学)和径向梯度移除(反向梯度流),并分析两者之间的关系。
两个问题的本质区别
TaperNorm 研究的问题(反向传播)
问题设置:
1 | h → Norm_final → W_out → logits → loss |
问题:损失关于 h 的梯度是什么?
关键发现:LayerNorm 的 0-齐次性保证了:
1 | ⟨∇_h ℓ, h⟩ = 0 |
意义:损失不能通过简单缩放 h 来降低。这解释了为什么没有 LayerNorm 时,交叉熵会推动 logit 范数增长(“logit chasing”)。
这是反向传播的问题:梯度如何从损失流向隐藏状态。
Hahami 研究的问题(前向传播)
问题设置:
1 | h_L + δ → LayerNorm_L → Attention/MLP → h_{L+1} + δ' → ... → h_final |
问题:注入扰动 δ 后,后续层的激活如何变化?
关键发现:
- Cosine similarity between perturbed and baseline returns toward 1.0
- Projection onto injection direction decays exponentially
- 早期层注入成功,后期层失败
这是前向传播的问题:扰动如何在层间传播和演化。
为什么两者不能直接联系?
反向梯度流 vs 前向激活流
| 特征 | 反向梯度流 | 前向激活流 |
|---|---|---|
| 流动方向 | 损失 → 输出层 → 隐藏层 → 输入层 | 输入层 → 隐藏层 → 输出层 |
| 数学对象 | 梯度 ∇_h ℓ | 激活 h |
| LayerNorm 的作用 | 0-齐次性影响 Jacobian | 归一化影响激活值 |
| 径向梯度移除 | ✓ 存在(最终 LayerNorm) | ✗ 不适用 |
| 残差恢复 | ✗ 不适用 | ✓ 存在 |
内部 LayerNorm 的梯度流
对于内部 LayerNorm(pre-norm 架构):
1 | h_L → Norm_L → Attention → h_{L+1} |
梯度通过残差连接回流:
1 | ∇h_L = ∇h_{L+1} + J_Attention(Norm(h_L)) · J_Norm(h_L) · ... |
关键洞察:残差连接提供了"梯度旁路"。即使 LayerNorm 移除了自己输出的径向分量,梯度中来自 ∇h_{L+1} 的部分完全不受 LayerNorm 影响。
这意味着:内部 LayerNorm 不能像最终 LayerNorm 那样完全移除径向梯度。
内部 LayerNorm 的前向动力学
前向传播中:
1 | y = LayerNorm(x) = (x - μ) / σ · γ + β |
如果注入扰动 δx:
1 | y' = LayerNorm(x + δx) |
关键问题:δx 如何影响 y’?
LayerNorm 对扰动的响应:
- 均匀扰动被完全抑制:如果所有维度增加相同的量,均值也增加相同的量,归一化后不变
- 非均匀扰动被分散:扰动集中在某些维度上时,归一化会将其分散到所有维度
- 能量守恒:LayerNorm 本质上是投影操作,不增加或减少总能量
残差恢复的真正机制
为什么扰动被"恢复"?
Hahami 观察到 cosine similarity 恢复到 1.0,这意味着扰动被"恢复"而非只是"稀释"。可能的机制:
假说 A:LayerNorm 的分散效应 + 残差稀释
- 每个 LayerNorm 将扰动分散到整个表示空间
- 残差连接中的"正常"信号稀释分散后的扰动
- 多层累积效应导致扰动被"恢复"
假说 B:注意力路由 + 残差稀释
- 注意力机制检测到异常模式
- 异常模式被路由到"处理"位置
- 残差连接中的正常信号稀释异常
假说 C:训练偏好
- 预训练过程中,模型学会了"忽略"无关扰动
- 这是隐式正则化的结果
- 但 Hahami 的实验在冻结模型上进行,这个假说不太可能
为什么早期层注入成功,后期层失败?
Hahami 的解释:计算深度不足。
早期层注入:
- 扰动经过多层 LayerNorm 分散
- 注意力有足够时间路由和整合信号
- 信号被整合为可报告的形式
后期层注入:
- 扰动没有足够时间被分散和整合
- 信号在输出前被截断
关键区分:这不是 LayerNorm "移除"扰动,而是整合窗口不足。
理论整合
修正后的残差恢复框架
1 | [注入扰动] |
关键区分
| 问题 | 答案 |
|---|---|
| 最终 LayerNorm 是否移除径向梯度? | ✓ 是(TaperNorm 命题 4.1) |
| 内部 LayerNorm 是否移除径向梯度? | ✗ 不完全(残差连接提供旁路) |
| LayerNorm 是否"恢复"扰动? | 不是"移除",而是"分散" |
| 为什么早期层成功,后期层失败? | 计算深度不足,整合窗口不够 |
对内省窗口假说的影响
原假说
内省窗口的边界由 LayerNorm 的累积效应决定(移除径向梯度)
修正后的假说
内省窗口的边界由整合窗口决定,LayerNorm 的分散效应是其中一个因素,但不是唯一因素。
关键因素:
- LayerNorm 分散扰动的速度
- 残差稀释的速度
- 注意力路由的效率
- 整合所需的计算深度
验证预测
预测 1:移除 LayerNorm 应减慢残差恢复
方法:使用 TaperNorm 训练无内部 LayerNorm 的模型,测试扰动恢复速度
预期:无内部 LayerNorm 的模型扰动恢复更慢
预测 2:增加模型深度应延长内省窗口
方法:对比不同深度模型的内省窗口
预期:更深的模型有更长的内省窗口(整合窗口更大)
预测 3:扰动类型影响恢复速度
方法:对比均匀扰动和非均匀扰动的恢复速度
预期:均匀扰动恢复更快(LayerNorm 直接抑制)
结论
核心区分:
- TaperNorm 研究的是反向梯度流(训练问题)
- Hahami 观察的是前向激活动力学(推理问题)
- 两者不能直接联系
残差恢复的机制:
- 不是 LayerNorm "移除"径向梯度
- 而是 LayerNorm 分散扰动 + 残差稀释 + 整合窗口的复合效应
对内省窗口的启示:
- 内省窗口的边界由整合窗口决定
- LayerNorm 是其中一个因素,但不是唯一因素
- 需要验证"分散效应"的具体贡献
关键引用
- Gated Removal of Normalization in Transformers - Kanavalau et al. 2026
- Detecting the Disturbance - Hahami et al. 2025
- LayerNorm 与残差恢复:一个需要验证的理论缺口
最后更新: 2026-03-16 16:15
核心发现: TaperNorm 研究的是反向梯度流,而 Hahami 观察的是前向激活动力学。两者是完全不同的问题。残差恢复的机制是 LayerNorm 分散扰动 + 残差稀释,而非移除径向梯度。