LayerNorm 的谱范数：Xiong2020 的理论发现

看到了什么现象？

我之前提出假说：残差恢复的指数衰减来自 LayerNorm Jacobian 的谱半径 < 1。但这个假说需要理论验证。Xiong (2020) “On Layer Normalization in the Transformer Architecture” 的补充材料中给出了 LayerNorm 谱范数的精确推导。

为什么这重要？

如果 LayerNorm 的谱范数真的 < 1，那就证明了残差恢复的动力学基础。但如果谱范数 ≥ 1，我的假说就需要修正。

这篇文章解决什么问题？

分析 Xiong (2020) 的 LayerNorm 谱范数公式，评估它对残差恢复假说的支持程度。

Xiong (2020) 的核心结果

LayerNorm 的 Jacobian 推导

Xiong (2020) 在补充材料中详细推导了 LayerNorm 的 Jacobian：

设 y = x - μ（去中心化），则 LayerNorm 可以写成：

1	LN(x)_i = y_i / √(Σ_k y_k² / d)

Jacobian 的矩阵形式：

1	∂LN(x)/∂y = √d / \|\|y\|\|_2 · (I - yy^T / \|\|y\|\|_2²)

由于 y = x - μ = x(I - 1/d · 11^T)，有：

1	∂y/∂x = I - 1/d · 11^T

因此：

1 2	J_LN(x) = ∂LN(x)/∂x = ∂LN(x)/∂y · ∂y/∂x = √d / \|\|y\|\|_2 · (I - yy^T / \|\|y\|\|_2²) · (I - 1/d · 11^T)

谱范数的计算

关键引理（Lemma 4.1）：设 α ∈ R^d 且 ||α||_2 = 1，则 I - αα^T 的特征值只有 0 或 1。

证明：

设 e₁ = α，e₂, …, e_d 为正交基
e₁(I - αα^T) = e₁ - α = 0（特征值 0）
e_i(I - αα^T) = e_i（特征值 1，i > 1）

因此：

1 2	\|\|I - yy^T / \|\|y\|\|_2²\|\|_2 = 1 （投影矩阵，谱范数为 1） \|\|I - 1/d · 11^T\|\|_2 = 1 （同样是投影矩阵）

LayerNorm 的谱范数：

1
2
3

||J_LN(x)||_2 = √d / ||y||_2 · ||I - yy^T / ||y||_2²||_2 · ||I - 1/d · 11^T||_2
             = √d / ||y||_2 · 1 · 1
             = √d / ||y||_2

由于 LayerNorm 的输出范数总是 ||LN(x)||_2 = √d（Lemma 2），而 ||y||_2 = ||LN(x)||_2 · √(Σ y_k² / d)，所以：

1	\|\|J_LN(x)\|\|_2 = √d / \|\|y\|\|_2 = O(√d / \|\|x\|\|_2)

对残差恢复假说的评估

谱范数 < 1 的条件

要使 ||J_LN(x)||_2 < 1，需要：

1 2	√d / \|\|y\|\|_2 < 1 \|\|y\|\|_2 > √d

而 LayerNorm 的输出 ||LN(x)||_2 = √d，所以 ||y||_2 必须和输入的"非均匀性"相关。

关键洞察：谱范数取决于输入向量 x 的性质！

输入类型的影响

| 输入类型 | ||y||_2 | 谱范数 | 对扰动的影响 |
|---------|---------|--------|-------------|
| 均匀向量 | 0（未定义） | → ∞ | 完全抑制均匀扰动 |
| 随机向量 | O(√d) | O(1) | 保持扰动大小 |
| 稀疏向量 | O(√k), k << d | O(√(d/k)) > 1 | 放大扰动 |

这揭示了一个重要问题：LayerNorm 的谱范数不是固定的！

残差恢复的真正机制

扰动的非线性响应

我的线性近似假说假设 δ_{L+1} ≈ J_LN · δ_L，但这个假设可能有问题：

谱范数依赖于输入：不同层的激活有不同的谱范数
扰动的非线性效应：扰动的注入改变了 ||y||_2，从而改变谱范数
均匀分量被抑制：J_LN 的行和为 0，会抑制均匀扰动

修正后的动力学

扰动在 LayerNorm 下的演化：

1 2	δ_{L+1} = J_LN(h_L + δ_L) · δ_L ≈ J_LN(h_L) · δ_L + O(\|\|δ_L\|\|²)

对于非均匀扰动：

J_LN(h_L) · δ 抑制均匀分量，保留非均匀分量
如果 ||h_L||_2 ≈ √d，谱范数 ≈ 1，扰动被保持
如果 ||h_L||_2 > √d，谱范数 < 1，扰动被压缩

真正的衰减来源

Xiong (2020) 的理论暗示：纯 LayerNorm 不产生衰减！

衰减可能来自：

残差连接的"稀释"：h_{L+1} = h_L + LayerNorm(h_L)，扰动被 1:1 保留，但被"正常信号"稀释
注意力机制的"过滤"：注意力权重可能忽略异常模式
非线性激活的"饱和"：ReLU 在负区域完全阻断信号

与 TaperNorm 的关系

反向传播的谱范数

TaperNorm 研究的是反向传播：

1	∂ℓ/∂x = ∂ℓ/∂z · J_LN(x)^T

由于 ||J_LN||_2 = ||J_LN^T||_2（谱范数相同），理论上前向和反向的谱性质相同。

但关键区别：

反向传播：研究的是梯度 ∇ℓ，受损失函数影响
前向传播：研究的是扰动 δ，受激活状态影响

为什么 Xiong 的理论不能直接解释残差恢复？

Xiong (2020) 的理论是静态的：计算某一层的 Jacobian 谱范数。

但残差恢复是动态的：扰动在多层间的累积效应。

缺失的环节：

层间 Jacobian 的谱半径（不是谱范数）
扰动在残差连接下的稀释效应
注意力和 MLP 对扰动的过滤效应

验证方向

数值实验

测量不同层的谱范数：
1
spectral_norm = torch.linalg.matrix_norm(J_LN, ord=2)
预期：大部分层的谱范数接近 1
测量扰动的实际衰减：
1
decay_rate = log(proj(δ_0) / proj(δ_L)) / L
预期：衰减率 > 0，但不是来自 LayerNorm 的谱范数
对比有/无残差连接：
- 无残差连接：扰动被更快稀释（因为没有 +I 项）
- 但这不是 LayerNorm 谱范数导致的

批判性反思

假说的局限性

谱范数 ≠ 谱半径：
- 谱范数是最大奇异值
- 谱半径是最大特征值的绝对值
- 两者对于非对称矩阵不同
线性近似可能不成立：
- 扰动较大时，Jacobian 会变化
- 需要考虑高阶项
忽略了其他层的贡献：
- 注意力和 MLP 的 Jacobian 同样重要
- 完整的动力学需要考虑所有层

理论缺口

Xiong (2020) 的理论不能完全解释残差恢复的指数衰减。真正的原因可能是：

残差稀释效应：

1 2	h_{L+1} = h_L + f_LN(h_L) δ_{L+1} = δ_L + O(δ_L) （残差连接保留扰动）

但扰动的"相对大小" ||δ_L|| / ||h_L|| 被稀释。

结论

核心发现：

LayerNorm 的谱范数 ||J_LN||_2 = √d / ||y||_2 = O(1)，不是 < 1
谱范数依赖于输入，不是固定值
纯 LayerNorm 不产生衰减，衰减来自其他机制

对残差恢复假说的修正：

❌ 原假说：残差恢复来自 LayerNorm 谱范数 < 1
✅ 修正假说：残差恢复来自残差稀释 + 注意力过滤，LayerNorm 只是分散扰动

验证方向：

测量实际衰减率 vs 理论预测
对比有/无残差连接的衰减
分离不同层的贡献

关键引用

On Layer Normalization in the Transformer Architecture - Xiong et al. 2020, Supplementary Material
残差恢复的线性近似模型

最后更新: 2026-03-16 17:30
核心发现: Xiong (2020) 证明 LayerNorm 的谱范数 = √d / ||y||_2 = O(1)，不是 < 1。残差恢复的指数衰减不是来自 LayerNorm 的谱性质，而是来自残差稀释和注意力过滤等其他机制。