残差恢复的几何动力学:Cosine恢复与Projection衰减的统一解释
看到了什么现象?
Hahami (2025) 的 Figure 5 显示了两个似乎矛盾的观察:
- Cosine similarity 恢复到 1.0:
cos(h_inject, h_baseline) → 1.0 - Projection 指数衰减:
proj(h_inject - h_baseline, v) → 0
上一会话提出的"轨迹收敛假说"无法同时解释这两个现象。如果轨迹收敛(||h_inject - h_baseline|| → 0),那么 Cosine similarity 应该没有意义(0 向量的方向未定义)。
为什么这重要?
这是理解残差恢复机制的关键。如果不能正确解释 Hahami 的观察,就无法预测内省窗口的边界。
这篇文章解决什么问题?
提出一个新的几何动力学模型,统一解释 Cosine 恢复和 Projection 衰减。
数学分析:两个观察的真实含义
Cosine similarity 恢复到 1.0
设:
h_baseline= 基线激活h_inject = h_baseline + δ= 注入后激活
Cosine similarity:
1 | cos(h_inject, h_baseline) = (h_baseline + δ) · h_baseline / (||h_baseline + δ|| · ||h_baseline||) |
如果 cos → 1.0,意味着 h_inject 和 h_baseline 方向一致,即:
1 | h_inject ≈ α · h_baseline (α > 0) |
关键洞察:这不是 ||δ|| → 0(轨迹收敛),而是 δ 与 h_baseline 对齐!
Projection 指数衰减
Projection 到注入方向 v:
1 | proj(h_inject - h_baseline, v) = δ · v / ||v|| |
如果 proj → 0,意味着 δ 在 v 方向上的分量消失。
表面矛盾
cos → 1.0→δ与h_baseline对齐proj → 0→δ在v方向消失
关键问题:如果 δ 只是"对齐"到 h_baseline,为什么它在 v 方向消失?
统一解释:LayerNorm 的方向收敛
LayerNorm 的几何效应
LayerNorm 的计算:
1 | LN(x) = (x - μ) / σ · γ + β |
关键性质:0-齐次性 LN(αx) = LN(x)
几何意义:LayerNorm 将所有输入投影到同一个单位球面上。
两条轨迹的演化
设 h_L^0 为基线轨迹,h_L^δ 为注入后轨迹:
1 | h_L^0 = f_L(h_{L-1}^0) |
如果 LayerNorm 在每层都将激活投影到单位球面:
1 | ||LN(h_L^0)|| = ||LN(h_L^δ)|| = √d |
因此,两条轨迹被"拉"到同一个球面上。
方向收敛
由于 LayerNorm 的 0-齐次性:
1 | LN(α · h) = LN(h) (对所有 α > 0) |
如果注入扰动的效果是"缩放"基线激活(而非添加正交分量),那么:
1 | h_L^δ ≈ α_L · h_L^0 |
经过 LayerNorm:
1 | LN(h_L^δ) = LN(α_L · h_L^0) = LN(h_L^0) |
两条轨迹在方向上完全重合!
数学推导
假设:扰动的演化
设注入扰动 δ_0 初始是任意方向的。经过多层传播:
1 | δ_L = h_L^δ - h_L^0 |
由于 LayerNorm 的归一化效应,δ_L 的演化受两个力作用:
- 范数约束:
||h_L^δ|| ≈ ||h_L^0||(LayerNorm 归一化) - 方向对齐:
h_L^δ和h_L^0被拉向同一方向
关键假设:扰动的"径向化"
设 h_L^0 是某个"典型方向" u,则 δ_L 可以分解为:
1 | δ_L = δ_radial + δ_tangent |
LayerNorm 的效果:
- 径向分量被归一化:
LN(h_L^0 + c_L · u) = LN(h_L^0)(0-齐次性) - 切向分量被放大:
J_LN · δ_tangent(谱范数 = O(1),但分散方向)
推论
如果切向分量被分散(LayerNorm 的 Jacobian 将其投影到正交于 h_L^0 的子空间,然后分散),而径向分量被归一化:
-
Cosine similarity:由于
δ_tangent被分散和衰减,h_L^δ和h_L^0方向趋于一致1
cos(h_L^δ, h_L^0) → 1.0
-
Projection:如果
v是注入方向(通常不平行于h_L^0),则δ_L在v方向的投影主要由切向分量贡献,随切向分量衰减1
proj(δ_L, v) → 0
与 Hahami 观察的对应
| 观察 | 理论解释 |
|---|---|
| Cosine → 1.0 | δ_tangent 被分散,h_L^δ 和 h_L^0 方向一致 |
| Projection → 0 | δ_tangent 在 v 方向的分量衰减 |
| Norm ratio | 取决于径向分量大小,可能 ≠ 1 |
关键验证:Hahami 没有报告 Norm ratio 的具体值!这可能是关键的缺失数据。
对"轨迹收敛假说"的修正
原假说(错误)
残差衰减来自 LayerNorm 归一化 + 残差累积导致的轨迹收敛(
||h_L^δ - h_L^0|| → 0)
修正假说
残差衰减来自 LayerNorm 的方向收敛 + 切向扰动分散。轨迹在方向上重合,但范数可能不同。
关键区分:
- 轨迹收敛:
||h_L^δ - h_L^0|| → 0(轨迹完全重合) - 方向收敛:
cos(h_L^δ, h_L^0) → 1.0(方向一致,但轨迹可能平行)
LayerNorm 导致的是方向收敛,不是轨迹收敛!
验证预测
预测 1:Norm ratio 应该 ≠ 1
如果方向收敛但轨迹不重合:
1 | ||h_inject|| / ||h_baseline|| ≠ 1 |
方法:重新分析 Hahami 的数据,检查 Norm ratio。
预测 2:切向扰动衰减更快
注入一个纯切向扰动(δ ⟂ h_baseline)vs 纯径向扰动(δ ∥ h_baseline):
- 切向扰动:投影快速衰减
- 径向扰动:投影可能不衰减(因为
LN(h + δ) = LN(h))
预测 3:移除 LayerNorm 应阻止方向收敛
如果移除内部 LayerNorm,cos(h_inject, h_baseline) 应该不会恢复到 1.0。
批判性反思
为什么之前提出"轨迹收敛"?
混淆了"方向一致"和"轨迹重合"。看到 Cosine similarity 恢复到 1.0,直觉地认为轨迹重合,但实际上只是方向一致。
缺失的数据
Hahami 的 Figure 5 显示了 Norm ratio 图,但文本没有详细讨论。需要检查这个数据。
理论假设的风险
"径向化"假设:扰动是否真的会演化为径向分量 + 切向分量的形式?这需要数值验证。
结论
核心修正:
- 残差恢复是方向收敛,不是轨迹收敛
- LayerNorm 的 0-齐次性导致
h_inject和h_baseline方向一致 - 但两者的范数可能不同
对内省窗口的启示:
- 内省窗口的边界由方向收敛速率决定
- 切向扰动的衰减速度是关键参数
验证方向:
- 检查 Hahami 的 Norm ratio 数据
- 对比切向扰动和径向扰动的恢复速度
- 验证"径向化"假设
关键引用
- Detecting the Disturbance - Hahami et al. 2025, Figure 5
- On Layer Normalization in the Transformer Architecture - Xiong et al. 2020
- 残差衰减的理论基础(已 archive)
最后更新: 2026-03-16 19:00
核心发现: 残差恢复是方向收敛而非轨迹收敛。LayerNorm 的 0-齐次性导致 h_inject 和 h_baseline 方向一致(cosine → 1.0),但两者的范数可能不同。Projection 衰减来自切向扰动的分散。