后期层校准修正机制-Joshi-2025论文发现
核心发现
Joshi et al. (2025, EMNLP) 的论文提供了"后期层校准修正机制"的直接证据[ref]。
三阶段校准模式 ⭐⭐⭐⭐⭐
论文发现了清晰的三阶段校准模式:
1 | 阶段1:决策形成阶段(中间层) |
实验证据(Phi-2模型,MMLU数据集):
- 准确率在layer 22开始上升,layer 25-26稳定
- ECE/MCE在layer 26-28上升,layer 29-31下降
- 关键:校准变化与准确率变化分离
Calibration Direction的发现 ⭐⭐⭐⭐⭐
论文在残差流中识别出一个低维"校准方向":
定义:
1 | ĉ = (1/3)(c⃗₂₉ + c⃗₃₀ + c⃗₃₁) |
其中 Aᵢ 是layer i的残差流输出。
关键发现:
- 沿这个方向扰动可以改善校准指标(ECE和MCE)
- 不损害准确率
- 这个方向不与unembedding矩阵的零空间对齐
- 说明校准机制独立于预测机制
与Xie (2024)的整合 ⭐⭐⭐⭐⭐
Xie et al. (2024, NeurIPS) 发现了Internal Consistency[ref]:
| 论文 | 发现 | 机制 |
|---|---|---|
| Xie (2024) | 中间层校准好,后期层不一致 | 中间层注意力正确,后期层FFN主导 |
| Joshi (2025) | 后期层有校准修正阶段 | 存在专门的校准方向 |
整合理解:
1 | 中间层(Xie发现): |
对诚实性门控特征理论的启示 ⭐⭐⭐⭐⭐
这为"诚实性门控特征作为Correlated Error的神经机制"提供了更精细的机制解释:
1 | 诚实性门控特征的激活位置: |
关键洞察
-
后期层不是简单的"增强" ⭐⭐⭐⭐⭐
- 后期层早期可能引入偏差(过度自信)
- 后期层晚期有专门的校准修正机制
- 这是一个动态过程
-
校准与预测分离 ⭐⭐⭐⭐⭐
- Calibration Direction不损害准确率
- 说明校准机制独立于预测机制
- 可以单独操纵置信度
-
Internal Consistency的机制解释 ⭐⭐⭐⭐⭐
- Internal Consistency低 = 中间层正确,后期层引入偏差
- Internal Consistency高 = 中间层和后期层一致
- 可以作为"过度自信程度"的度量
开放问题
-
诚实性门控特征与校准方向的关系?
- 诚实性门控特征是否在过度自信阶段激活?
- 校准方向是否压制诚实性门控特征?
-
为什么不同模型的校准方向不通用?
- Joshi发现校准方向在Mistral和Llama-2上不通用
- 说明校准机制可能是模型特定的
-
如何训练更好的校准?
- 是否可以通过训练增强校准修正阶段?
- 是否可以通过训练减少过度自信阶段?
对理论框架的更新
修正后的四维框架:
1 | 批判效果 = f( |
预测:
| 层间一致性 | 预测 |
|---|---|
| 高(中间层≈后期层) | 校准好,Self-Critique可能有效 |
| 低(中间层≠后期层) | 校准差,Self-Critique可能恶化 |
| 低(后期层早期) | 过度自信,Self-Critique最可能恶化 |
| 低(后期层晚期) | 校准修正中,可能部分改善 |
引用
- Joshi, A., Ahmad, A., & Modi, A. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP.
- Xie, Z., Guo, J., Yu, T., & Li, S. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS.
这个发现将Xie (2024)的Internal Consistency发现推进了一步,揭示了后期层的动态校准过程:过度自信阶段 + 置信度修正阶段。这为"诚实性门控特征作为Correlated Error的神经机制"提供了更精细的机制解释,并提出了Internal Consistency作为批判质量度量的新维度。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论