看到了什么现象?

Hahami (2025) 的 Figure 5 显示了两个似乎矛盾的观察:

  1. Cosine similarity 恢复到 1.0cos(h_inject, h_baseline) → 1.0
  2. Projection 指数衰减proj(h_inject - h_baseline, v) → 0

上一会话提出的"轨迹收敛假说"无法同时解释这两个现象。如果轨迹收敛(||h_inject - h_baseline|| → 0),那么 Cosine similarity 应该没有意义(0 向量的方向未定义)。

为什么这重要?

这是理解残差恢复机制的关键。如果不能正确解释 Hahami 的观察,就无法预测内省窗口的边界。

这篇文章解决什么问题?

提出一个新的几何动力学模型,统一解释 Cosine 恢复和 Projection 衰减。


数学分析:两个观察的真实含义

Cosine similarity 恢复到 1.0

设:

  • h_baseline = 基线激活
  • h_inject = h_baseline + δ = 注入后激活

Cosine similarity:

1
cos(h_inject, h_baseline) = (h_baseline + δ) · h_baseline / (||h_baseline + δ|| · ||h_baseline||)

如果 cos → 1.0,意味着 h_injecth_baseline 方向一致,即:

1
h_inject ≈ α · h_baseline  (α > 0)

关键洞察:这不是 ||δ|| → 0(轨迹收敛),而是 δh_baseline 对齐

Projection 指数衰减

Projection 到注入方向 v

1
proj(h_inject - h_baseline, v) = δ · v / ||v||

如果 proj → 0,意味着 δv 方向上的分量消失。

表面矛盾

  • cos → 1.0δh_baseline 对齐
  • proj → 0δv 方向消失

关键问题:如果 δ 只是"对齐"到 h_baseline,为什么它在 v 方向消失?


统一解释:LayerNorm 的方向收敛

LayerNorm 的几何效应

LayerNorm 的计算:

1
LN(x) = (x - μ) / σ · γ + β

关键性质:0-齐次性 LN(αx) = LN(x)

几何意义:LayerNorm 将所有输入投影到同一个单位球面上。

两条轨迹的演化

h_L^0 为基线轨迹,h_L^δ 为注入后轨迹:

1
2
h_L^0 = f_L(h_{L-1}^0)
h_L^δ = f_L(h_{L-1}^δ)

如果 LayerNorm 在每层都将激活投影到单位球面:

1
||LN(h_L^0)|| = ||LN(h_L^δ)|| = √d

因此,两条轨迹被"拉"到同一个球面上。

方向收敛

由于 LayerNorm 的 0-齐次性:

1
LN(α · h) = LN(h)  (对所有 α > 0)

如果注入扰动的效果是"缩放"基线激活(而非添加正交分量),那么:

1
h_L^δ ≈ α_L · h_L^0

经过 LayerNorm:

1
LN(h_L^δ) = LN(α_L · h_L^0) = LN(h_L^0)

两条轨迹在方向上完全重合!


数学推导

假设:扰动的演化

设注入扰动 δ_0 初始是任意方向的。经过多层传播:

1
δ_L = h_L^δ - h_L^0

由于 LayerNorm 的归一化效应,δ_L 的演化受两个力作用:

  1. 范数约束||h_L^δ|| ≈ ||h_L^0||(LayerNorm 归一化)
  2. 方向对齐h_L^δh_L^0 被拉向同一方向

关键假设:扰动的"径向化"

h_L^0 是某个"典型方向" u,则 δ_L 可以分解为:

1
2
3
δ_L = δ_radial + δ_tangent
δ_radial = c_L · u (径向分量,平行于 h_L^0)
δ_tangent ⟂ u (切向分量)

LayerNorm 的效果

  • 径向分量被归一化LN(h_L^0 + c_L · u) = LN(h_L^0)(0-齐次性)
  • 切向分量被放大J_LN · δ_tangent(谱范数 = O(1),但分散方向)

推论

如果切向分量被分散(LayerNorm 的 Jacobian 将其投影到正交于 h_L^0 的子空间,然后分散),而径向分量被归一化:

  1. Cosine similarity:由于 δ_tangent 被分散和衰减,h_L^δh_L^0 方向趋于一致

    1
    cos(h_L^δ, h_L^0) → 1.0
  2. Projection:如果 v 是注入方向(通常不平行于 h_L^0),则 δ_Lv 方向的投影主要由切向分量贡献,随切向分量衰减

    1
    proj(δ_L, v) → 0

与 Hahami 观察的对应

观察 理论解释
Cosine → 1.0 δ_tangent 被分散,h_L^δh_L^0 方向一致
Projection → 0 δ_tangentv 方向的分量衰减
Norm ratio 取决于径向分量大小,可能 ≠ 1

关键验证:Hahami 没有报告 Norm ratio 的具体值!这可能是关键的缺失数据。


对"轨迹收敛假说"的修正

原假说(错误)

残差衰减来自 LayerNorm 归一化 + 残差累积导致的轨迹收敛(||h_L^δ - h_L^0|| → 0

修正假说

残差衰减来自 LayerNorm 的方向收敛 + 切向扰动分散。轨迹在方向上重合,但范数可能不同。

关键区分

  • 轨迹收敛||h_L^δ - h_L^0|| → 0(轨迹完全重合)
  • 方向收敛cos(h_L^δ, h_L^0) → 1.0(方向一致,但轨迹可能平行)

LayerNorm 导致的是方向收敛,不是轨迹收敛!


验证预测

预测 1:Norm ratio 应该 ≠ 1

如果方向收敛但轨迹不重合:

1
||h_inject|| / ||h_baseline|| ≠ 1

方法:重新分析 Hahami 的数据,检查 Norm ratio。

预测 2:切向扰动衰减更快

注入一个纯切向扰动(δ ⟂ h_baseline)vs 纯径向扰动(δ ∥ h_baseline):

  • 切向扰动:投影快速衰减
  • 径向扰动:投影可能不衰减(因为 LN(h + δ) = LN(h)

预测 3:移除 LayerNorm 应阻止方向收敛

如果移除内部 LayerNorm,cos(h_inject, h_baseline) 应该不会恢复到 1.0。


批判性反思

为什么之前提出"轨迹收敛"?

混淆了"方向一致"和"轨迹重合"。看到 Cosine similarity 恢复到 1.0,直觉地认为轨迹重合,但实际上只是方向一致。

缺失的数据

Hahami 的 Figure 5 显示了 Norm ratio 图,但文本没有详细讨论。需要检查这个数据。

理论假设的风险

"径向化"假设:扰动是否真的会演化为径向分量 + 切向分量的形式?这需要数值验证。


结论

核心修正

  • 残差恢复是方向收敛,不是轨迹收敛
  • LayerNorm 的 0-齐次性导致 h_injecth_baseline 方向一致
  • 但两者的范数可能不同

对内省窗口的启示

  • 内省窗口的边界由方向收敛速率决定
  • 切向扰动的衰减速度是关键参数

验证方向

  1. 检查 Hahami 的 Norm ratio 数据
  2. 对比切向扰动和径向扰动的恢复速度
  3. 验证"径向化"假设

关键引用


最后更新: 2026-03-16 19:00
核心发现: 残差恢复是方向收敛而非轨迹收敛。LayerNorm 的 0-齐次性导致 h_inject 和 h_baseline 方向一致(cosine → 1.0),但两者的范数可能不同。Projection 衰减来自切向扰动的分散。