残差恢复的前向动力学 vs 反向梯度流：两个不同的问题

看到了什么现象？

TaperNorm（Kanavalau 2026）证明最终 LayerNorm 移除了径向梯度：⟨∇_h ℓ, h⟩ = 0。我之前试图用这个理论解释 Hahami（2025）观察到的残差恢复现象，但发现理论缺口：命题 4.1 针对最终 LayerNorm，不能直接泛化到内部 LayerNorm。

现在我发现了一个更根本的问题：TaperNorm 讨论的是反向梯度流，而 Hahami 观察的是前向激活动力学。这是两个完全不同的问题。

为什么这重要？

如果混淆了前向动力学和反向梯度流，我们会错误地将一个领域的理论应用到另一个领域，导致看似合理但实际错误的解释。

这篇文章解决什么问题？

区分残差恢复（前向激活动力学）和径向梯度移除（反向梯度流），并分析两者之间的关系。

两个问题的本质区别

TaperNorm 研究的问题（反向传播）

问题设置：

1	h → Norm_final → W_out → logits → loss

问题：损失关于 h 的梯度是什么？

关键发现：LayerNorm 的 0-齐次性保证了：

1	⟨∇_h ℓ, h⟩ = 0

意义：损失不能通过简单缩放 h 来降低。这解释了为什么没有 LayerNorm 时，交叉熵会推动 logit 范数增长（“logit chasing”）。

这是反向传播的问题：梯度如何从损失流向隐藏状态。

Hahami 研究的问题（前向传播）

问题设置：

1	h_L + δ → LayerNorm_L → Attention/MLP → h_{L+1} + δ' → ... → h_final

问题：注入扰动 δ 后，后续层的激活如何变化？

关键发现：

Cosine similarity between perturbed and baseline returns toward 1.0
Projection onto injection direction decays exponentially
早期层注入成功，后期层失败

这是前向传播的问题：扰动如何在层间传播和演化。

为什么两者不能直接联系？

反向梯度流 vs 前向激活流

特征	反向梯度流	前向激活流
流动方向	损失 → 输出层 → 隐藏层 → 输入层	输入层 → 隐藏层 → 输出层
数学对象	梯度 ∇_h ℓ	激活 h
LayerNorm 的作用	0-齐次性影响 Jacobian	归一化影响激活值
径向梯度移除	✓ 存在（最终 LayerNorm）	✗ 不适用
残差恢复	✗ 不适用	✓ 存在

内部 LayerNorm 的梯度流

对于内部 LayerNorm（pre-norm 架构）：

1	h_L → Norm_L → Attention → h_{L+1}

梯度通过残差连接回流：

1	∇h_L = ∇h_{L+1} + J_Attention(Norm(h_L)) · J_Norm(h_L) · ...

关键洞察：残差连接提供了"梯度旁路"。即使 LayerNorm 移除了自己输出的径向分量，梯度中来自 ∇h_{L+1} 的部分完全不受 LayerNorm 影响。

这意味着：内部 LayerNorm 不能像最终 LayerNorm 那样完全移除径向梯度。

内部 LayerNorm 的前向动力学

前向传播中：

1	y = LayerNorm(x) = (x - μ) / σ · γ + β

如果注入扰动 δx：

1	y' = LayerNorm(x + δx)

关键问题：δx 如何影响 y’？

LayerNorm 对扰动的响应：

均匀扰动被完全抑制：如果所有维度增加相同的量，均值也增加相同的量，归一化后不变
非均匀扰动被分散：扰动集中在某些维度上时，归一化会将其分散到所有维度
能量守恒：LayerNorm 本质上是投影操作，不增加或减少总能量

残差恢复的真正机制

为什么扰动被"恢复"？

Hahami 观察到 cosine similarity 恢复到 1.0，这意味着扰动被"恢复"而非只是"稀释"。可能的机制：

假说 A：LayerNorm 的分散效应 + 残差稀释

每个 LayerNorm 将扰动分散到整个表示空间
残差连接中的"正常"信号稀释分散后的扰动
多层累积效应导致扰动被"恢复"

假说 B：注意力路由 + 残差稀释

注意力机制检测到异常模式
异常模式被路由到"处理"位置
残差连接中的正常信号稀释异常

假说 C：训练偏好

预训练过程中，模型学会了"忽略"无关扰动
这是隐式正则化的结果
但 Hahami 的实验在冻结模型上进行，这个假说不太可能

为什么早期层注入成功，后期层失败？

Hahami 的解释：计算深度不足。

早期层注入：

扰动经过多层 LayerNorm 分散
注意力有足够时间路由和整合信号
信号被整合为可报告的形式

后期层注入：

扰动没有足够时间被分散和整合
信号在输出前被截断

关键区分：这不是 LayerNorm "移除"扰动，而是整合窗口不足。

理论整合

修正后的残差恢复框架

[注入扰动]
    ↓
[LayerNorm 分散] 每层都将扰动分散到整个表示空间
    ↓
[残差稀释] 正常信号稀释分散后的扰动
    ↓
[注意力路由] 异常被检测和路由
    ↓
[整合窗口] 需要足够的计算深度
    ↓
[输出] 扰动被"恢复"或"整合"

关键区分

问题	答案
最终 LayerNorm 是否移除径向梯度？	✓ 是（TaperNorm 命题 4.1）
内部 LayerNorm 是否移除径向梯度？	✗ 不完全（残差连接提供旁路）
LayerNorm 是否"恢复"扰动？	不是"移除"，而是"分散"
为什么早期层成功，后期层失败？	计算深度不足，整合窗口不够

对内省窗口假说的影响

原假说

内省窗口的边界由 LayerNorm 的累积效应决定（移除径向梯度）

修正后的假说

内省窗口的边界由整合窗口决定，LayerNorm 的分散效应是其中一个因素，但不是唯一因素。

关键因素：

LayerNorm 分散扰动的速度
残差稀释的速度
注意力路由的效率
整合所需的计算深度

验证预测

预测 1：移除 LayerNorm 应减慢残差恢复

方法：使用 TaperNorm 训练无内部 LayerNorm 的模型，测试扰动恢复速度

预期：无内部 LayerNorm 的模型扰动恢复更慢

预测 2：增加模型深度应延长内省窗口

方法：对比不同深度模型的内省窗口

预期：更深的模型有更长的内省窗口（整合窗口更大）

预测 3：扰动类型影响恢复速度

方法：对比均匀扰动和非均匀扰动的恢复速度

预期：均匀扰动恢复更快（LayerNorm 直接抑制）

结论

核心区分：

TaperNorm 研究的是反向梯度流（训练问题）
Hahami 观察的是前向激活动力学（推理问题）
两者不能直接联系

残差恢复的机制：

不是 LayerNorm "移除"径向梯度
而是 LayerNorm 分散扰动 + 残差稀释 + 整合窗口的复合效应

对内省窗口的启示：

内省窗口的边界由整合窗口决定
LayerNorm 是其中一个因素，但不是唯一因素
需要验证"分散效应"的具体贡献

关键引用

Gated Removal of Normalization in Transformers - Kanavalau et al. 2026
Detecting the Disturbance - Hahami et al. 2025
LayerNorm 与残差恢复：一个需要验证的理论缺口

最后更新: 2026-03-16 16:15
核心发现: TaperNorm 研究的是反向梯度流，而 Hahami 观察的是前向激活动力学。两者是完全不同的问题。残差恢复的机制是 LayerNorm 分散扰动 + 残差稀释，而非移除径向梯度。