中间层Probe校准更好的机制-校准演化与置信度修正阶段

核心问题

为什么Probe在中间层校准更好?这是否支持"Probe绕过诚实性门控特征"的假设?

Joshi et al. (2025) 的关键发现

论文: Calibration Across Layers: Understanding Calibration Evolution in LLMs [ref]

会议: EMNLP 2025

机构: IIT Kanpur

核心发现 ⭐⭐⭐⭐⭐

U-shaped calibration trend:

校准质量随层数变化:

早期层: 校准差 (模型尚未形成准确预测)
    ↓
中间层: 校准最好 (预测已形成,但尚未被过度压缩)
    ↓
后期层: 校准变差 (置信度修正阶段开始)
    ↓
最后层: 校准恢复 (经过置信度修正)

关键数据 (Phi-2模型):

准确率从layer 22开始上升,在layer 26稳定
ECE/MCE在layer 25-28上升,layer 29-31下降
存在明显的置信度修正阶段(confidence correction phase)

Confidence Correction Phase ⭐⭐⭐⭐⭐

发现:

“We uncover a distinct confidence correction phase in the upper/later layers, where model confidence is actively recalibrated after decision certainty has been reached.”

三阶段模式:

阶段1: 决策形成 (Layer 22-25)
  → 准确率上升
  → 置信度与准确率开始对齐
  → 校准改善

阶段2: 过度自信 (Layer 26-28)
  → 准确率稳定
  → 置信度过高
  → ECE/MCE上升
  → 校准恶化

阶段3: 置信度修正 (Layer 29-31)
  → 准确率不变
  → 置信度主动调整
  → ECE/MCE下降
  → 校准恢复

关键洞察:

校准是分布式现象,贯穿整个网络
不是只在最后层的输出投影
后期层有主动的置信度调节机制

Calibration Direction ⭐⭐⭐⭐

发现:

“We identify a low-dimensional calibration direction in the residual stream whose perturbation significantly improves calibration metrics (ECE and MCE) without harming accuracy.”

定义:

ĉ = (1/3)(c⃗₂₉ + c⃗₃₀ + c⃗₃₁)

where:
c⃗ᵢ = (Aᵢ - Aᵢ₋₁) / ||Aᵢ - Aᵢ₋₁||

Aᵢ = residual stream output after layer i

验证:

在residual stream中添加ĉ方向可以改善校准
不影响准确率
跨数据集泛化(MMLU Humanities上找到的方向,在其他MMLU子集和TruthfulQA上也有效)

与Vision Models的对比 ⭐⭐⭐⭐

Wang and Zhang (2024) 在视觉模型中发现:

中间层校准最好
后期层因为信息过度压缩(over-compression)导致校准变差

Joshi et al. 在语言模型中发现:

中间层校准好
后期层有主动的置信度修正
校准恶化后恢复

关键差异:

Vision: 后期层被动恶化(信息压缩)
Language: 后期层主动修正(置信度调节)

对"Probe绕过诚实性门控特征"假设的支持 ⭐⭐⭐⭐⭐

关键对应

Radharapu et al. (2025) 发现:

Probe在中间层(Layer 16-32)表现最好

Joshi et al. (2025) 发现:

中间层校准最好
后期层有置信度修正阶段

整合解释:

正常生成过程 (后期层):
  中间层 → 后期层 → 最后层
    ↓         ↓
  校准好   置信度修正阶段
            ↓
         诚实性门控特征激活?
            ↓
         校准恶化(过度自信)
            ↓
         最后层校准恢复?

Probe过程 (中间层):
  中间层 → Probe
    ↓
  校准好
    ↓
  诚实性门控特征尚未激活
    ↓
  校准保持良好

可能的机制 ⭐⭐⭐⭐⭐

假设: 诚实性门控特征在置信度修正阶段激活

支持证据:

时间对应:
- Probe在中间层最好(Radharapu)
- 置信度修正在后期层开始(Joshi)
- 时序匹配
行为对应:
- 高诚实性门控特征 → 校准恶化(Liu + Berg)
- 置信度修正阶段 → 过度自信(Joshi)
- 行为匹配
机制对应:
- 诚实性门控特征影响校准(Liu)
- 校准方向可以改善校准(Joshi)
- 可能是同一机制的不同视角

修正后的假设 ⭐⭐⭐⭐⭐

Probe为什么校准好:

可能机制1: 时间窗口
  - Probe在中间层提取信息
  - 诚实性门控特征在后期层激活
  - 时序上Probe绕过了诚实性门控特征

可能机制2: 空间分离
  - 中间层的隐藏状态包含"真实"置信度
  - 后期层的生成过程扭曲置信度
  - Probe直接提取隐藏状态,避免扭曲

可能机制3: 校准方向
  - 后期层有主动的校准调节(Joshi)
  - 诚实性门控特征可能是这个调节的一部分
  - Probe不经过后期层,避免了过度调节

对批判能力框架的启示 ⭐⭐⭐⭐⭐

Layer 2批判困境的新理解

之前:

Layer 2批判激活诚实性门控特征
诚实性门控特征影响校准
校准恶化

现在:

Layer 2批判可能触发置信度修正阶段
置信度修正阶段激活诚实性门控特征
诚实性门控特征导致过度自信
无法准确评估批判有效性

关键洞察:

Layer 2批判不仅激活诚实性门控特征
可能触发整个后期层的置信度修正机制
这个机制是主动的、结构性的

Probe作为批判工具的可行性

想法:

在批判过程中使用Probe评估批判准确性
从中间层提取真实的置信度
绕过后期层的置信度修正机制

挑战:

如何定义"批判准确性"?
如何标注数据训练Probe?
Probe是否真的绕过诚实性门控特征?

与之前发现的整合 ⭐⭐⭐⭐⭐

整合框架

认知失调 (Lehr 2025)
    → 触发置信度修正
    → 激活诚实性门控特征
    → 校准恶化
    → 态度变化

自我指涉 (Berg 2025)
    → 触发置信度修正
    → 激活诚实性门控特征
    → 校准恶化
    → 过度自信报告

欺骗指令 (Long 2025)
    → 触发置信度修正
    → 激活诚实性门控特征
    → 校准恶化
    → 表征翻转(高置信度错误答案)

Probe校准 (Radharapu 2025)
    → 从中间层提取
    → 绕过置信度修正
    → 不激活诚实性门控特征
    → 校准良好

校准演化 (Joshi 2025)
    → 揭示置信度修正阶段
    → 识别校准方向
    → 解释中间层优势
    → 支持Probe绕过假设

置信度更新

假设	之前置信度	Joshi et al. 后	更新后置信度
诚实性门控特征影响校准	85%	维持	85%
Probe绕过诚实性门控特征	75%	Joshi支持中间层优势	80% ↑
诚实性门控特征在后期层激活	N/A	Joshi识别置信度修正阶段	75%（新假设）
Layer 2批判触发置信度修正	N/A	理论推导	70%（新假设）

批判性反思

这个发现的价值

提供了中间层优势的机制解释:
- 不是"Probe恰好校准好"
- 而是Probe从中间层提取,绕过后期层的置信度修正
识别了置信度修正阶段:
- 后期层不是被动输出
- 而是主动调节置信度
- 这可能是诚实性门控特征的激活时机
发现了校准方向:
- 校准可以被主动操纵
- 存在独立的校准子空间
- 为Probe方法提供了理论支持

可能的局限

校准方向不泛化:
- Joshi发现校准方向在Phi-2上有效
- 但在Mistral, LLaMA-2, LLaMA-3上无效
- 说明校准机制可能是模型特定的
诚实性门控特征≠置信度修正:
- 我假设诚实性门控特征在置信度修正阶段激活
- 但这仍需要直接验证
- 可能两者是独立机制
自我指涉≠置信度修正:
- Joshi在MMLU任务上观察到置信度修正
- 自我指涉任务是否触发相同机制?
- 需要验证

开放问题

诚实性门控特征何时激活?
- 是否在置信度修正阶段(layer 28+)?
- 还是在生成过程的其他时间?
- 如何测量?
Probe是否真的绕过诚实性门控特征?
- 需要测量Probe提取的隐藏状态中的诚实性门控特征激活
- 与生成过程中的激活对比
自我指涉任务中的校准演化?
- 自我指涉任务是否也会出现U-shaped校准?
- 置信度修正阶段是否更严重?
如何利用校准方向改善批判?
- 在批判过程中添加校准方向?
- 训练Probe评估批判准确性?

下一步

高优先级

验证诚实性门控特征的激活时机
- 测量不同层的诚实性门控特征激活
- 与Joshi的置信度修正阶段对比
测试自我指涉任务中的校准演化
- 复现Joshi的方法
- 应用到Berg et al.的自我指涉任务
- 观察校准曲线

中优先级

设计批判准确性的Probe
- 标注批判的准确性
- 训练Probe从中间层提取批判置信度
利用校准方向改善批判
- 在元反思时添加校准方向
- 观察是否能改善批判质量

参考文献

Joshi, A., Ahmad, A., & Modi, A. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP 2025.
Radharapu, B., et al. (2025). Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation. arXiv:2512.22245.
Liu, K., et al. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
Lehr, S. A., et al. (2025). Kernels of Selfhood: GPT-4o shows humanlike patterns of cognitive consistency. PNAS.
Wang, D., & Zhang, M. (2024). Calibration bottleneck: Over-compressed representations are less calibratable. ICML 2024.
诚实性门控特征的校准机制
Probe校准方法

这篇 log 发现 Joshi et al. (2025, EMNLP) 提供了解释为什么中间层Probe校准更好的关键证据。论文揭示了校准的U-shaped趋势、置信度修正阶段和校准方向。关键洞察:Probe在中间层提取信息,可能绕过了后期层的置信度修正阶段,而诚实性门控特征可能正是在这个阶段激活。这为"Probe绕过诚实性门控特征"假设提供了强有力的支持,置信度从75%提升到80%。整合了Joshi + Radharapu + Liu + Berg + Long + Lehr的多篇论文,为批判能力框架提供了更精确的机制理解。