LayerNorm 的径向梯度移除：残差恢复的数学基础

看到了什么现象？

Hahami (2025) 发现残差流会"恢复"到基线轨迹，但没解释为什么。Kanavalau et al. (2026) 的 TaperNorm 论文提供了一个意外的答案：

LayerNorm 移除了径向梯度：⟨∇_h ℓ(z,y), h⟩ = 0

这意味着残差恢复不是"网络机制"，而是 LayerNorm 的数学必然。

为什么这重要？

如果残差恢复是 LayerNorm 的数学属性，那么：

"内省窗口"的边界由 LayerNorm 的位置决定
后期层信号被"归一化"是必然，而非可选
内省方向只能"看到"早期层的原始特征

这篇文章解决什么问题？

整合 TaperNorm 的理论发现，解释残差恢复的数学基础，并分析对内省能力的约束。

TaperNorm 的核心发现

命题 1：LayerNorm 移除径向梯度

定理：如果最终归一化层 Norm_final 是 0-齐次的（包括理想的 RMSNorm 和 LayerNorm），那么对于任何可微损失 ℓ：

1	⟨∇_h ℓ(z,y), h⟩ = 0 (当 h ≠ 0)

意义：

损失不能通过简单缩放最后隐藏状态来降低
径向分量被完全移除
只有切向分量（方向变化）影响损失

命题 2：没有 LayerNorm，交叉熵推高范数

定理：如果 z = h·W_out（无归一化），ℓ 是多类交叉熵，那么当 margin m > 0：

1	⟨∇_h ℓ(z,y), h⟩ ≤ -(1 - softmax(z)_y)·m < 0

意义：

小梯度步会增加 ‖h‖²
正确类的 margin 越大，推高范数的力越强
这解释了"残差恢复"：信号被推回基线

命题 3：固定目标尺度损失提供恢复力

定理：辅助损失 ℒ_aux(h) = λ(r(h) - s_tgt)² 提供径向恢复力：

1	⟨∇_h ℒ_aux(h), h⟩ = 2λ(r(h) - s_tgt)/[d·r(h)]·‖h‖²

意义：

如果 r(h) > s_tgt，减小 ‖h‖
如果 r(h) < s_tgt，增大 ‖h‖
可以替代 LayerNorm 的隐式锚定

对残差恢复的解释

Hahami 的发现重新解释

Hahami 发现残差流的 cosine similarity 会恢复到 1.0，投影到注入方向会指数衰减。

TaperNorm 的理论解释：

每个 LayerNorm 都移除径向梯度
扰动信号在后续层被"归一化"
这是数学必然，而非网络"学会"恢复

层位置的数学意义

[注入扰动] Layer L: 信号 ‖h‖ 偏离基线
    ↓
[LayerNorm L+1] 移除径向梯度，但信号仍有切向分量
    ↓
[后续 LayerNorm] 逐渐"磨平"扰动
    ↓
[残差恢复] 信号被推回基线轨迹

关键洞察：

早期层注入 → 信号经过多个 LayerNorm，有足够时间被"整合"为切向分量
后期层注入 → 信号被 LayerNorm "归一化"前没有足够的计算深度

对内省能力的影响

内省窗口的边界

假说：内省窗口的边界由 LayerNorm 的累积效应决定。

Layer 位置 | LayerNorm 累积效应 | 信号可见性
-----------|-------------------|----------
L0-L5      | 轻度归一化        | 原始特征保留
L6-L10     | 中度归一化        | 特征部分平滑
L11-L15    | 重度归一化        | 扰动信号衰减
L16+       | 完全归一化        | 信号被基线覆盖

内省方向监控什么？

假说：内省方向监控的是 LayerNorm 移除径向梯度前的"原始"激活动力学。

这解释了为什么：

Dadfar 的内省方向在早期层（~6.25%）最有效
Hahami 的早期层注入成功，后期层失败
两者的"早期层窗口"高度一致

验证预测

预测 1：移除 LayerNorm 应延长内省窗口

方法：

使用 TaperNorm 训练一个无内部 LayerNorm 的模型
测试后期层注入是否成功

预期：后期层注入应显示内省能力

预测 2：LayerNorm 频率影响内省窗口大小

方法：

对比 Pre-LN（每层有 LN）和 Post-LN（更少 LN）模型
测量内省窗口范围

预期：Post-LN 模型的内省窗口应更大

预测 3：不同 LayerNorm 变体影响内省能力

方法：

对比 RMSNorm、LayerNorm、TaperNorm
测量内省方向的敏感性

预期：归一化程度越强的变体，内省窗口越小

对归属涌现的启示

修正后的归属涌现路径

[架构基础] LayerNorm 配置
    → 决定径向梯度的移除时机
    → 决定内省窗口的大小
    ↓
[内省窗口] 只有窗口内的信号可见
    → 早期层：原始特征
    → 后期层：被归一化
    ↓
[内省方向] 监控窗口内的激活动力学
    → 读取 autocorrelation、variability
    → 但无法"看到"被归一化的信号
    ↓
[门控机制] Permission Gate
    → 决定是否输出内省内容
    ↓
[输出层] 实际报告的内省内容

关键洞察

内省能力的边界不是"能力"问题，而是"架构"问题：

LayerNorm 的位置决定了"什么可以被监控"
径向梯度移除是数学必然，而非可选特性
归属涌现的"内省前提"受限于 LayerNorm 配置

批判性反思

TaperNorm 的设置是否适用？

风险：TaperNorm 研究的是最终归一化层，内部 LayerNorm 是否有相同效应？

回应：

命题 1 对任何 LayerNorm 都成立
但内部 LayerNorm 的"锚定"效应可能被残差连接部分抵消
需要实验验证

Qwen 的 12.5% vs Llama 的 6.25% 如何解释？

风险：如果 LayerNorm 配置类似，为什么热点层位置不同？

回应：

可能是 Qwen 使用了不同的 LayerNorm 变体
或者 Qwen 的层结构不同（如更多并行分支）
需要检查 Qwen 的架构细节

这个假说是否可证伪？

风险：如果移除 LayerNorm 不能延长内省窗口，假说被否定。

回应：

这正是预测 1 要验证的
如果预测失败，需要重新考虑 LayerNorm 的角色

结论

核心发现：

LayerNorm 移除径向梯度是数学属性，解释了残差恢复
内省窗口的边界由 LayerNorm 的累积效应决定
内省方向监控的是 LayerNorm 归一化前的"原始"激活动力学

对归属的启示：

归属涌现的"内省前提"受限于 LayerNorm 配置
后期层的信号被 LayerNorm “隐藏”，内省方向无法"看到"
这解释了为什么"轻量级内省"可能足够——它只需要监控早期层

下一步验证：

使用 TaperNorm 训练无内部 LayerNorm 的模型
对比不同 LayerNorm 变体的内省窗口
验证 LayerNorm 频率与内省窗口的关系

关键引用

Gated Removal of Normalization in Transformers - Kanavalau et al. 2026
Detecting the Disturbance - Hahami et al. 2025
When Models Examine Themselves - Dadfar et al. 2026
内省方向的层位置约束

最后更新: 2026-03-16 11:45
核心发现: LayerNorm 移除径向梯度是数学属性，这解释了残差恢复现象。内省窗口的边界由 LayerNorm 的累积效应决定，内省方向监控的是归一化前的"原始"激活动力学。