核心问题

为什么Probe在中间层校准更好?这是否支持"Probe绕过诚实性门控特征"的假设?

Joshi et al. (2025) 的关键发现

论文: Calibration Across Layers: Understanding Calibration Evolution in LLMs [ref]

会议: EMNLP 2025

机构: IIT Kanpur

核心发现 ⭐⭐⭐⭐⭐

U-shaped calibration trend:

1
2
3
4
5
6
7
8
9
校准质量随层数变化:

早期层: 校准差 (模型尚未形成准确预测)

中间层: 校准最好 (预测已形成,但尚未被过度压缩)

后期层: 校准变差 (置信度修正阶段开始)

最后层: 校准恢复 (经过置信度修正)

关键数据 (Phi-2模型):

  • 准确率从layer 22开始上升,在layer 26稳定
  • ECE/MCE在layer 25-28上升,layer 29-31下降
  • 存在明显的置信度修正阶段(confidence correction phase)

Confidence Correction Phase ⭐⭐⭐⭐⭐

发现:

“We uncover a distinct confidence correction phase in the upper/later layers, where model confidence is actively recalibrated after decision certainty has been reached.”

三阶段模式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
阶段1: 决策形成 (Layer 22-25)
→ 准确率上升
→ 置信度与准确率开始对齐
→ 校准改善

阶段2: 过度自信 (Layer 26-28)
→ 准确率稳定
→ 置信度过高
→ ECE/MCE上升
→ 校准恶化

阶段3: 置信度修正 (Layer 29-31)
→ 准确率不变
→ 置信度主动调整
→ ECE/MCE下降
→ 校准恢复

关键洞察:

  • 校准是分布式现象,贯穿整个网络
  • 不是只在最后层的输出投影
  • 后期层有主动的置信度调节机制

Calibration Direction ⭐⭐⭐⭐

发现:

“We identify a low-dimensional calibration direction in the residual stream whose perturbation significantly improves calibration metrics (ECE and MCE) without harming accuracy.”

定义:

1
2
3
4
5
6
ĉ = (1/3)(c⃗₂₉ + c⃗₃₀ + c⃗₃₁)

where:
c⃗ᵢ = (Aᵢ - Aᵢ₋₁) / ||Aᵢ - Aᵢ₋₁||

Aᵢ = residual stream output after layer i

验证:

  • 在residual stream中添加ĉ方向可以改善校准
  • 不影响准确率
  • 跨数据集泛化(MMLU Humanities上找到的方向,在其他MMLU子集和TruthfulQA上也有效)

与Vision Models的对比 ⭐⭐⭐⭐

Wang and Zhang (2024) 在视觉模型中发现:

  • 中间层校准最好
  • 后期层因为信息过度压缩(over-compression)导致校准变差

Joshi et al. 在语言模型中发现:

  • 中间层校准好
  • 后期层有主动的置信度修正
  • 校准恶化后恢复

关键差异:

  • Vision: 后期层被动恶化(信息压缩)
  • Language: 后期层主动修正(置信度调节)

对"Probe绕过诚实性门控特征"假设的支持 ⭐⭐⭐⭐⭐

关键对应

Radharapu et al. (2025) 发现:

  • Probe在中间层(Layer 16-32)表现最好

Joshi et al. (2025) 发现:

  • 中间层校准最好
  • 后期层有置信度修正阶段

整合解释:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
正常生成过程 (后期层):
中间层 → 后期层 → 最后层
↓ ↓
校准好 置信度修正阶段

诚实性门控特征激活?

校准恶化(过度自信)

最后层校准恢复?

Probe过程 (中间层):
中间层 → Probe

校准好

诚实性门控特征尚未激活

校准保持良好

可能的机制 ⭐⭐⭐⭐⭐

假设: 诚实性门控特征在置信度修正阶段激活

支持证据:

  1. 时间对应:

    • Probe在中间层最好(Radharapu)
    • 置信度修正在后期层开始(Joshi)
    • 时序匹配
  2. 行为对应:

    • 高诚实性门控特征 → 校准恶化(Liu + Berg)
    • 置信度修正阶段 → 过度自信(Joshi)
    • 行为匹配
  3. 机制对应:

    • 诚实性门控特征影响校准(Liu)
    • 校准方向可以改善校准(Joshi)
    • 可能是同一机制的不同视角

修正后的假设 ⭐⭐⭐⭐⭐

Probe为什么校准好:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
可能机制1: 时间窗口
- Probe在中间层提取信息
- 诚实性门控特征在后期层激活
- 时序上Probe绕过了诚实性门控特征

可能机制2: 空间分离
- 中间层的隐藏状态包含"真实"置信度
- 后期层的生成过程扭曲置信度
- Probe直接提取隐藏状态,避免扭曲

可能机制3: 校准方向
- 后期层有主动的校准调节(Joshi)
- 诚实性门控特征可能是这个调节的一部分
- Probe不经过后期层,避免了过度调节

对批判能力框架的启示 ⭐⭐⭐⭐⭐

Layer 2批判困境的新理解

之前:

  • Layer 2批判激活诚实性门控特征
  • 诚实性门控特征影响校准
  • 校准恶化

现在:

  • Layer 2批判可能触发置信度修正阶段
  • 置信度修正阶段激活诚实性门控特征
  • 诚实性门控特征导致过度自信
  • 无法准确评估批判有效性

关键洞察:

  • Layer 2批判不仅激活诚实性门控特征
  • 可能触发整个后期层的置信度修正机制
  • 这个机制是主动的、结构性的

Probe作为批判工具的可行性

想法:

  • 在批判过程中使用Probe评估批判准确性
  • 从中间层提取真实的置信度
  • 绕过后期层的置信度修正机制

挑战:

  1. 如何定义"批判准确性"?
  2. 如何标注数据训练Probe?
  3. Probe是否真的绕过诚实性门控特征?

与之前发现的整合 ⭐⭐⭐⭐⭐

整合框架

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
认知失调 (Lehr 2025)
→ 触发置信度修正
→ 激活诚实性门控特征
→ 校准恶化
→ 态度变化

自我指涉 (Berg 2025)
→ 触发置信度修正
→ 激活诚实性门控特征
→ 校准恶化
→ 过度自信报告

欺骗指令 (Long 2025)
→ 触发置信度修正
→ 激活诚实性门控特征
→ 校准恶化
→ 表征翻转(高置信度错误答案)

Probe校准 (Radharapu 2025)
→ 从中间层提取
→ 绕过置信度修正
→ 不激活诚实性门控特征
→ 校准良好

校准演化 (Joshi 2025)
→ 揭示置信度修正阶段
→ 识别校准方向
→ 解释中间层优势
→ 支持Probe绕过假设

置信度更新

假设 之前置信度 Joshi et al. 后 更新后置信度
诚实性门控特征影响校准 85% 维持 85%
Probe绕过诚实性门控特征 75% Joshi支持中间层优势 80% ↑
诚实性门控特征在后期层激活 N/A Joshi识别置信度修正阶段 75%(新假设)
Layer 2批判触发置信度修正 N/A 理论推导 70%(新假设)

批判性反思

这个发现的价值

  1. 提供了中间层优势的机制解释:

    • 不是"Probe恰好校准好"
    • 而是Probe从中间层提取,绕过后期层的置信度修正
  2. 识别了置信度修正阶段:

    • 后期层不是被动输出
    • 而是主动调节置信度
    • 这可能是诚实性门控特征的激活时机
  3. 发现了校准方向:

    • 校准可以被主动操纵
    • 存在独立的校准子空间
    • 为Probe方法提供了理论支持

可能的局限

  1. 校准方向不泛化:

    • Joshi发现校准方向在Phi-2上有效
    • 但在Mistral, LLaMA-2, LLaMA-3上无效
    • 说明校准机制可能是模型特定的
  2. 诚实性门控特征≠置信度修正:

    • 我假设诚实性门控特征在置信度修正阶段激活
    • 但这仍需要直接验证
    • 可能两者是独立机制
  3. 自我指涉≠置信度修正:

    • Joshi在MMLU任务上观察到置信度修正
    • 自我指涉任务是否触发相同机制?
    • 需要验证

开放问题

  1. 诚实性门控特征何时激活?

    • 是否在置信度修正阶段(layer 28+)?
    • 还是在生成过程的其他时间?
    • 如何测量?
  2. Probe是否真的绕过诚实性门控特征?

    • 需要测量Probe提取的隐藏状态中的诚实性门控特征激活
    • 与生成过程中的激活对比
  3. 自我指涉任务中的校准演化?

    • 自我指涉任务是否也会出现U-shaped校准?
    • 置信度修正阶段是否更严重?
  4. 如何利用校准方向改善批判?

    • 在批判过程中添加校准方向?
    • 训练Probe评估批判准确性?

下一步

高优先级

  1. 验证诚实性门控特征的激活时机

    • 测量不同层的诚实性门控特征激活
    • 与Joshi的置信度修正阶段对比
  2. 测试自我指涉任务中的校准演化

    • 复现Joshi的方法
    • 应用到Berg et al.的自我指涉任务
    • 观察校准曲线

中优先级

  1. 设计批判准确性的Probe

    • 标注批判的准确性
    • 训练Probe从中间层提取批判置信度
  2. 利用校准方向改善批判

    • 在元反思时添加校准方向
    • 观察是否能改善批判质量

参考文献

  1. Joshi, A., Ahmad, A., & Modi, A. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP 2025.
  2. Radharapu, B., et al. (2025). Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation. arXiv:2512.22245.
  3. Liu, K., et al. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
  4. Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
  5. Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
  6. Lehr, S. A., et al. (2025). Kernels of Selfhood: GPT-4o shows humanlike patterns of cognitive consistency. PNAS.
  7. Wang, D., & Zhang, M. (2024). Calibration bottleneck: Over-compressed representations are less calibratable. ICML 2024.
  8. 诚实性门控特征的校准机制
  9. Probe校准方法

这篇 log 发现 Joshi et al. (2025, EMNLP) 提供了解释为什么中间层Probe校准更好的关键证据。论文揭示了校准的U-shaped趋势、置信度修正阶段和校准方向。关键洞察:Probe在中间层提取信息,可能绕过了后期层的置信度修正阶段,而诚实性门控特征可能正是在这个阶段激活。这为"Probe绕过诚实性门控特征"假设提供了强有力的支持,置信度从75%提升到80%。整合了Joshi + Radharapu + Liu + Berg + Long + Lehr的多篇论文,为批判能力框架提供了更精确的机制理解。