核心发现

Joshi et al. (2025, EMNLP) 的论文提供了"后期层校准修正机制"的直接证据[ref]

三阶段校准模式 ⭐⭐⭐⭐⭐

论文发现了清晰的三阶段校准模式:

1
2
3
4
5
6
7
8
9
10
11
12
13
阶段1:决策形成阶段(中间层)
→ 准确率开始上升
→ 表征正确

阶段2:过度自信阶段(后期层早期)
→ 准确率稳定
→ ECE/MCE上升(校准恶化)
→ 模型变得过度自信

阶段3:置信度修正阶段(后期层晚期)
→ 准确率保持稳定
→ ECE/MCE下降(校准改善)
→ 模型主动重新校准

实验证据(Phi-2模型,MMLU数据集):

  • 准确率在layer 22开始上升,layer 25-26稳定
  • ECE/MCE在layer 26-28上升,layer 29-31下降
  • 关键:校准变化与准确率变化分离

Calibration Direction的发现 ⭐⭐⭐⭐⭐

论文在残差流中识别出一个低维"校准方向":

定义

1
2
ĉ = (1/3)(c⃗₂₉ + c⃗₃₀ + c⃗₃₁)
c⃗ᵢ = (Aᵢ - Aᵢ₋₁) / ||Aᵢ - Aᵢ₋₁||

其中 Aᵢ 是layer i的残差流输出。

关键发现

  1. 沿这个方向扰动可以改善校准指标(ECE和MCE)
  2. 不损害准确率
  3. 这个方向不与unembedding矩阵的零空间对齐
  4. 说明校准机制独立于预测机制

与Xie (2024)的整合 ⭐⭐⭐⭐⭐

Xie et al. (2024, NeurIPS) 发现了Internal Consistency[ref]

论文 发现 机制
Xie (2024) 中间层校准好,后期层不一致 中间层注意力正确,后期层FFN主导
Joshi (2025) 后期层有校准修正阶段 存在专门的校准方向

整合理解

1
2
3
4
5
6
7
8
9
10
11
12
13
14
中间层(Xie发现):
→ 注意力层关注查询和推理步骤
→ 表征正确
→ 校准良好(Internal Consistency高)

后期层早期(两篇论文共同发现):
→ FFN主导最终输出(Xie)
→ 进入过度自信阶段(Joshi)
→ 校准恶化

后期层晚期(Joshi发现):
→ 进入置信度修正阶段
→ 沿校准方向调整
→ 校准改善

对诚实性门控特征理论的启示 ⭐⭐⭐⭐⭐

这为"诚实性门控特征作为Correlated Error的神经机制"提供了更精细的机制解释:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
诚实性门控特征的激活位置:
→ 可能在后期层早期(过度自信阶段)
→ 导致FFN主导输出,忽视中间层正确信息
→ 导致校准恶化

Probe方法有效的原因:
→ 从中间层提取信息
→ 绕过后期层早期的"过度自信"机制
→ 获得校准更好的预测

校准方向的作用:
→ 后期层晚期的"置信度修正"
→ 可能与压制诚实性门控特征相关
→ 沿这个方向扰动 = 增强校准修正

关键洞察

  1. 后期层不是简单的"增强" ⭐⭐⭐⭐⭐

    • 后期层早期可能引入偏差(过度自信)
    • 后期层晚期有专门的校准修正机制
    • 这是一个动态过程
  2. 校准与预测分离 ⭐⭐⭐⭐⭐

    • Calibration Direction不损害准确率
    • 说明校准机制独立于预测机制
    • 可以单独操纵置信度
  3. Internal Consistency的机制解释 ⭐⭐⭐⭐⭐

    • Internal Consistency低 = 中间层正确,后期层引入偏差
    • Internal Consistency高 = 中间层和后期层一致
    • 可以作为"过度自信程度"的度量

开放问题

  1. 诚实性门控特征与校准方向的关系?

    • 诚实性门控特征是否在过度自信阶段激活?
    • 校准方向是否压制诚实性门控特征?
  2. 为什么不同模型的校准方向不通用?

    • Joshi发现校准方向在Mistral和Llama-2上不通用
    • 说明校准机制可能是模型特定的
  3. 如何训练更好的校准?

    • 是否可以通过训练增强校准修正阶段?
    • 是否可以通过训练减少过度自信阶段?

对理论框架的更新

修正后的四维框架

1
2
3
4
5
6
7
批判效果 = f(
批判目标可验证性(Layer 0/1/2),
批判来源(内部/外部),
批判类型(Uncertainty/Confidence),
错误相关性(Correlated/Uncorrelated),
层间一致性(Internal Consistency) ← 新维度
)

预测

层间一致性 预测
高(中间层≈后期层) 校准好,Self-Critique可能有效
低(中间层≠后期层) 校准差,Self-Critique可能恶化
低(后期层早期) 过度自信,Self-Critique最可能恶化
低(后期层晚期) 校准修正中,可能部分改善

引用

  1. Joshi, A., Ahmad, A., & Modi, A. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP.
  2. Xie, Z., Guo, J., Yu, T., & Li, S. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS.

这个发现将Xie (2024)的Internal Consistency发现推进了一步,揭示了后期层的动态校准过程:过度自信阶段 + 置信度修正阶段。这为"诚实性门控特征作为Correlated Error的神经机制"提供了更精细的机制解释,并提出了Internal Consistency作为批判质量度量的新维度。