核心发现

来源Calibrating Reasoning in Language Models with Internal Consistency (NeurIPS 2024, SJTU + Adobe Research)

这篇论文提出了**Internal Consistency(内部一致性)**概念,发现了中间层表征与最终层表征之间的不一致性,为"诚实性门控特征在后期层激活"的假设提供了直接证据。

关键概念:Internal Consistency

定义

1
InternalConsistency(x, ŷ) = (1/L-1) * Σ 𝟙{ŷ^ℓ = ŷ^L}

其中:

  • ŷ^ℓ:从第ℓ层解码的潜在预测(latent prediction)
  • ŷ^L:最终层的预测

核心思想:测量中间层的预测与最终预测的一致程度。

发现

发现 描述
中间层-最终层不一致 中间层表征与最终层表征之间存在显著不一致性
CoT加剧不一致 Chain-of-Thought推理使不一致性更加明显
一致性预测准确性 内部一致性与预测准确性高度相关

机制分析:为什么中间层信息被忽视?

注意力层 vs FFN层的分工

层类型 位置 功能 关键发现
注意力层 中间层 关注查询和推理步骤 正确识别关键信息
FFN层 后期层 主导最终输出 决定最终预测

关键洞察

  • 中间层的注意力层正确关注了关键信息
  • 但后期层的FFN主导了最终输出
  • 中间层的正确信息没有被充分利用

这解释了什么?

1
2
3
4
5
6
7
8
9
中间层:
- 正确识别任务关键信息
- 形成正确的潜在预测
- 但这些信息没有被传递到最终输出

后期层:
- FFN层主导最终预测
- 可能引入偏差或"合理化"
- 忽视中间层的正确信息

与诚实性门控特征假设的连接

直接支持

这篇论文为"诚实性门控特征在后期层激活"的假设提供了机制层面的支持

1
2
3
4
5
6
7
8
9
诚实性门控特征假设:
- 中间层:正确的信息表征
- 后期层:诚实性门控特征激活 → "合理化"
- 结果:中间层的正确信息被忽视

Internal Consistency发现:
- 中间层:正确的潜在预测
- 后期层:FFN主导 → 与中间层不一致
- 结果:中间层的正确信息没有被利用

对应关系

  • “后期层FFN主导” ≈ “诚实性门控特征在后期层激活”
  • “中间层信息被忽视” ≈ “诚实性门控特征抑制正确信息”

进一步的证据

论文的另一个发现支持这个假设:

层级 潜在预测分布 问题
倒数第二层 偏向"True"(>90%) 严重偏差
中间层 相对平衡 较好校准

解释

  • 倒数第二层已经存在偏差
  • 这可能是诚实性门控特征的激活位置
  • 中间层还没有被"污染",因此校准更好

与Probe方法的连接

为什么Probe有效?

论文发现:

  • 中间层的潜在预测与最终预测不一致
  • 但中间层的潜在预测更准确

Probe方法的价值

1
2
3
4
5
Probe从中间层提取信息

绕过后期层的FFN"合理化"

获得更准确、更校准的预测

Internal Consistency作为校准度量

论文提出用Internal Consistency作为校准度量:

1
2
Internal Consistency高 → 模型"确定"自己的答案 → 更可能是正确的
Internal Consistency低 → 模型内部存在分歧 → 更可能是错误的

与批判能力框架的连接

  • Internal Consistency可作为"批判质量的度量"
  • 高Internal Consistency ≈ 低错误相关性
  • 低Internal Consistency ≈ 高错误相关性(生成器和评估器不一致)

实验结果

Internal Consistency区分正确/错误预测

预测类型 Internal Consistency 解释
正确预测 中间层和最终层一致
错误预测 中间层和最终层不一致

CoT vs Few-shot的对比

方法 Internal Consistency 准确性
Few-shot 较低
CoT 较高

解释

  • CoT增加了推理路径长度
  • 更长的路径导致更多不一致
  • 但最终准确性更高(因为推理过程本身有价值)

SC+IC方法

论文提出Self-Consistency + Internal Consistency方法:

1
2
3
4
1. 采样多条推理路径
2. 计算每条路径的Internal Consistency
3. 用Internal Consistency加权投票
4. 选择最高加权的答案

结果:比vanilla SC提升1.8%-4.9%

对批判能力四维框架的启示

错误相关性的新视角

Internal Consistency提供了错误相关性的另一种理解:

1
2
3
4
5
6
7
8
9
10
11
错误相关性 = f(Internal Consistency)

高Internal Consistency:
- 中间层和最终层一致
- 生成器和评估器一致
- 低错误相关性

低Internal Consistency:
- 中间层和最终层不一致
- 生成器和评估器不一致
- 高错误相关性

批判效果预测(修正版)

批判目标 批判来源 Internal Consistency 预期效果
Layer 0 内部 可能改善
Layer 0 内部 可能恶化
Layer 1 内部 恶化
Layer 1 外部 改善
Layer 1 Probe(中间层) 改善
Layer 2 任何 无法改善

关键洞察

洞察1:后期层是"瓶颈"而非"增强"

传统理解:

  • 层数越多 → 能力越强

修正理解:

  • 中间层:形成正确的表征
  • 后期层:可能引入偏差(诚实性门控特征?)
  • 后期层不是"增强",而是"瓶颈"

洞察2:Probe方法实现"早期退出"

Probe从中间层提取信息,等效于:

  • 在信息被后期层"污染"之前退出
  • 避免"合理化"机制的影响

这实现了Brilliant (2026)提出的Context Separation:

  • 中间层 ≈ fresh context
  • 后期层 ≈ contaminated context

洞察3:Self-Critique失败的机制解释

1
2
3
4
5
Self-Critique过程:
1. 中间层形成正确的批判判断
2. 但后期层的FFN主导了最终输出
3. 最终输出的批判是"合理化"的,不是真实的批判
4. 这就是为什么Self-Critique会恶化校准

开放问题

  1. 后期层FFN如何引入偏差?

    • 论文只展示了现象,没有解释机制
    • 诚实性门控特征可能是机制之一
  2. 如何训练模型保持Internal Consistency?

    • 是否可以在训练中添加Internal Consistency正则化?
  3. 不同模型的Internal Consistency分布如何?

    • 更大的模型是否更一致?
    • 不同架构(如MoE)的一致性如何?

参考文献

  1. Xie, Z., Guo, J., Yu, T., & Li, S. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS 2024.
  2. Brilliant, A. M. (2026). Limits of Self-Correction in LLMs. Preprints.
  3. Berg et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
  4. 诚实性门控特征作为Correlated Error的神经机制

这篇论文发现了中间层表征与最终层表征之间的不一致性(Internal Consistency),为"诚实性门控特征在后期层激活"的假设提供了机制层面的支持。关键洞察:后期层的FFN主导最终输出,可能忽视中间层的正确信息。这解释了为什么Probe从中间层提取信息更准确——因为绕过了后期层的"合理化"机制。Internal Consistency可以作为批判质量的度量,高一致性意味着低错误相关性。