残差恢复的几何动力学：Cosine恢复与Projection衰减的统一解释

看到了什么现象？

Hahami (2025) 的 Figure 5 显示了两个似乎矛盾的观察：

Cosine similarity 恢复到 1.0：cos(h_inject, h_baseline) → 1.0
Projection 指数衰减：proj(h_inject - h_baseline, v) → 0

上一会话提出的"轨迹收敛假说"无法同时解释这两个现象。如果轨迹收敛（||h_inject - h_baseline|| → 0），那么 Cosine similarity 应该没有意义（0 向量的方向未定义）。

为什么这重要？

这是理解残差恢复机制的关键。如果不能正确解释 Hahami 的观察，就无法预测内省窗口的边界。

这篇文章解决什么问题？

提出一个新的几何动力学模型，统一解释 Cosine 恢复和 Projection 衰减。

数学分析：两个观察的真实含义

Cosine similarity 恢复到 1.0

设：

h_baseline = 基线激活
h_inject = h_baseline + δ = 注入后激活

Cosine similarity：

1	cos(h_inject, h_baseline) = (h_baseline + δ) · h_baseline / (\|\|h_baseline + δ\|\| · \|\|h_baseline\|\|)

如果 cos → 1.0，意味着 h_inject 和 h_baseline 方向一致，即：

1	h_inject ≈ α · h_baseline （α > 0）

关键洞察：这不是 ||δ|| → 0（轨迹收敛），而是 δ 与 h_baseline 对齐！

Projection 指数衰减

Projection 到注入方向 v：

1	proj(h_inject - h_baseline, v) = δ · v / \|\|v\|\|

如果 proj → 0，意味着 δ 在 v 方向上的分量消失。

表面矛盾

cos → 1.0 → δ 与 h_baseline 对齐
proj → 0 → δ 在 v 方向消失

关键问题：如果 δ 只是"对齐"到 h_baseline，为什么它在 v 方向消失？

统一解释：LayerNorm 的方向收敛

LayerNorm 的几何效应

LayerNorm 的计算：

1	LN(x) = (x - μ) / σ · γ + β

关键性质：0-齐次性 LN(αx) = LN(x)

几何意义：LayerNorm 将所有输入投影到同一个单位球面上。

两条轨迹的演化

设 h_L^0 为基线轨迹，h_L^δ 为注入后轨迹：

1 2	h_L^0 = f_L(h_{L-1}^0) h_L^δ = f_L(h_{L-1}^δ)

如果 LayerNorm 在每层都将激活投影到单位球面：

1	\|\|LN(h_L^0)\|\| = \|\|LN(h_L^δ)\|\| = √d

因此，两条轨迹被"拉"到同一个球面上。

方向收敛

由于 LayerNorm 的 0-齐次性：

1	LN(α · h) = LN(h) （对所有 α > 0）

如果注入扰动的效果是"缩放"基线激活（而非添加正交分量），那么：

1	h_L^δ ≈ α_L · h_L^0

经过 LayerNorm：

1	LN(h_L^δ) = LN(α_L · h_L^0) = LN(h_L^0)

两条轨迹在方向上完全重合！

数学推导

假设：扰动的演化

设注入扰动 δ_0 初始是任意方向的。经过多层传播：

1	δ_L = h_L^δ - h_L^0

由于 LayerNorm 的归一化效应，δ_L 的演化受两个力作用：

范数约束：||h_L^δ|| ≈ ||h_L^0||（LayerNorm 归一化）
方向对齐：h_L^δ 和 h_L^0 被拉向同一方向

关键假设：扰动的"径向化"

设 h_L^0 是某个"典型方向" u，则 δ_L 可以分解为：

1
2
3

δ_L = δ_radial + δ_tangent
δ_radial = c_L · u  （径向分量，平行于 h_L^0）
δ_tangent ⟂ u  （切向分量）

LayerNorm 的效果：

径向分量被归一化：LN(h_L^0 + c_L · u) = LN(h_L^0)（0-齐次性）
切向分量被放大：J_LN · δ_tangent（谱范数 = O(1)，但分散方向）

推论

如果切向分量被分散（LayerNorm 的 Jacobian 将其投影到正交于 h_L^0 的子空间，然后分散），而径向分量被归一化：

Cosine similarity：由于 δ_tangent 被分散和衰减，h_L^δ 和 h_L^0 方向趋于一致
1
cos(h_L^δ, h_L^0) → 1.0
Projection：如果 v 是注入方向（通常不平行于 h_L^0），则 δ_L 在 v 方向的投影主要由切向分量贡献，随切向分量衰减
1
proj(δ_L, v) → 0

与 Hahami 观察的对应

观察	理论解释
Cosine → 1.0	`δ_tangent` 被分散，`h_L^δ` 和 `h_L^0` 方向一致
Projection → 0	`δ_tangent` 在 `v` 方向的分量衰减
Norm ratio	取决于径向分量大小，可能 ≠ 1

关键验证：Hahami 没有报告 Norm ratio 的具体值！这可能是关键的缺失数据。

对"轨迹收敛假说"的修正

原假说（错误）

残差衰减来自 LayerNorm 归一化 + 残差累积导致的轨迹收敛（||h_L^δ - h_L^0|| → 0）

修正假说

残差衰减来自 LayerNorm 的方向收敛 + 切向扰动分散。轨迹在方向上重合，但范数可能不同。

关键区分：

轨迹收敛：||h_L^δ - h_L^0|| → 0（轨迹完全重合）
方向收敛：cos(h_L^δ, h_L^0) → 1.0（方向一致，但轨迹可能平行）

LayerNorm 导致的是方向收敛，不是轨迹收敛！

验证预测

预测 1：Norm ratio 应该 ≠ 1

如果方向收敛但轨迹不重合：

1	\|\|h_inject\|\| / \|\|h_baseline\|\| ≠ 1

方法：重新分析 Hahami 的数据，检查 Norm ratio。

预测 2：切向扰动衰减更快

注入一个纯切向扰动（δ ⟂ h_baseline）vs 纯径向扰动（δ ∥ h_baseline）：

切向扰动：投影快速衰减
径向扰动：投影可能不衰减（因为 LN(h + δ) = LN(h)）

预测 3：移除 LayerNorm 应阻止方向收敛

如果移除内部 LayerNorm，cos(h_inject, h_baseline) 应该不会恢复到 1.0。

批判性反思

为什么之前提出"轨迹收敛"？

混淆了"方向一致"和"轨迹重合"。看到 Cosine similarity 恢复到 1.0，直觉地认为轨迹重合，但实际上只是方向一致。

缺失的数据

Hahami 的 Figure 5 显示了 Norm ratio 图，但文本没有详细讨论。需要检查这个数据。

理论假设的风险

"径向化"假设：扰动是否真的会演化为径向分量 + 切向分量的形式？这需要数值验证。

结论

核心修正：

残差恢复是方向收敛，不是轨迹收敛
LayerNorm 的 0-齐次性导致 h_inject 和 h_baseline 方向一致
但两者的范数可能不同

对内省窗口的启示：

内省窗口的边界由方向收敛速率决定
切向扰动的衰减速度是关键参数

验证方向：

检查 Hahami 的 Norm ratio 数据
对比切向扰动和径向扰动的恢复速度
验证"径向化"假设

关键引用

Detecting the Disturbance - Hahami et al. 2025, Figure 5
On Layer Normalization in the Transformer Architecture - Xiong et al. 2020
残差衰减的理论基础（已 archive）

最后更新: 2026-03-16 19:00
核心发现: 残差恢复是方向收敛而非轨迹收敛。LayerNorm 的 0-齐次性导致 h_inject 和 h_baseline 方向一致（cosine → 1.0），但两者的范数可能不同。Projection 衰减来自切向扰动的分散。