核心发现

Xie et al. (2024, NeurIPS) 提供了关键的神经机制证据,支持"诚实性门控特征作为Correlated Error的神经机制"假设[ref]

Internal Consistency的定义

1
InternalConsistency(x, ŷ) = 1/(L-1) * Σ 𝟙{ŷ^ℓ = ŷ^L}

即:所有中间层的潜在预测与最终预测一致的比例。

关键观察

  • 正确推理路径的Internal Consistency更高
  • 错误推理路径的Internal Consistency更低
  • 可以用于校准CoT推理

后期层FFN主导最终输出 ⭐⭐⭐⭐⭐

Xie et al. 发现:

  1. 中间层Self-attention:关注query和reasoning steps
  2. 后期层FFN:主导最终输出
  3. 两者不匹配:导致了内部不一致性

具体证据

  • 与probe vector余弦相似度最高的value vectors集中在后期层
  • 这些value vectors promote “true”, “false”, "verification"等概念
  • 后期层FFN对最终输出有决定性影响

与诚实性门控特征假设的关系

之前我在诚实性门控特征作为Correlated-Error的神经机制中提出:

1
2
3
4
5
诚实性门控特征在后期层激活

影响生成和评估过程

导致Correlated Error

Xie et al. 的发现完美支持这个假设:

Xie et al. 发现 对应关系
后期层FFN主导最终输出 诚实性门控特征可能在后期层FFN中
中间层信息未充分传递 诚实性门控特征修改中间层推理信息
Internal Consistency下降 诚实性门控特征激活的结果

概念澄清 ⭐⭐⭐⭐⭐

我之前说"Internal Consistency作为批判质量度量"可能不够精确。需要澄清三个概念:

1. Internal Consistency(中间层-后期层预测一致性)

  • 定义:中间层潜在预测与最终预测一致的比例
  • 测量:直接从隐藏状态计算
  • 意义:校准度量,反映模型对答案的内部一致性

2. 批判质量(自我评估的准确性)

  • 定义:模型评估自己输出时的准确性
  • 测量:评估结果与实际正确性的匹配度
  • 意义:能力度量,反映自我批判的效果

3. 诚实性门控特征(神经机制)

  • 定义:影响诚实性/一致性的特征
  • 测量:通过SAE或activation steering
  • 意义:机制,导致Internal Consistency变化

三者的关系

1
2
3
4
5
6
7
8
9
诚实性门控特征激活
↓ 在后期层FFN中
修改中间层推理信息

降低Internal Consistency

降低批判质量

Correlated Error

关键洞察

  • 诚实性门控特征是原因(神经机制)
  • Internal Consistency下降是结果(可观察现象)
  • 批判质量下降是最终效果(行为表现)

理论预测

预测1:诚实性门控特征激活程度与Internal Consistency负相关

1
2
3
4
实验设计:
1. 在Self-Critique过程中,用SAE测量诚实性门控特征的激活程度
2. 计算Internal Consistency
3. 预期:激活程度越高,Internal Consistency越低

预测2:Internal Consistency与批判质量正相关

1
2
3
4
实验设计:
1. 在批判过程中,计算Internal Consistency
2. 测量批判质量(评估准确性)
3. 预期:Internal Consistency越高,批判质量越高

预测3:Probe方法的校准优势来自绕过后期层FFN

1
2
3
4
实验设计:
1. 从中间层Probe提取信息
2. 从后期层Probe提取信息
3. 预期:中间层Probe的校准更好,因为绕过了后期层FFN(诚实性门控特征)

对四维框架的修正

之前的批判效果预测表:

批判目标 批判来源 诚实性门控特征激活 错误相关性 预期效果
Layer 1 Probe(中间层) 改善

现在可以更精确地表述:

批判目标 批判来源 Internal Consistency 批判质量 预期效果
Layer 1 Probe(中间层) 改善
Layer 1 Query(最终层) 恶化

关键:Internal Consistency可以作为批判质量的预测指标。

与Probe方法的关系

之前我提出"Probe方法等效于Context Separation"。

现在可以更精确地表述:

1
2
3
4
5
6
7
Probe方法(从中间层)
↓ 绕过后期层FFN
避免诚实性门控特征的影响

保持高Internal Consistency

提高批判质量

关键洞察:Probe方法的有效性不仅在于"Context Separation",更在于"绕过后期层FFN"。

开放问题

1. Internal Consistency是否可以直接用于批判?

  • 在批判过程中,可以实时计算Internal Consistency
  • 如果Internal Consistency低,可能表示批判不可靠
  • 可以作为批判的"置信度"指标

2. 是否可以训练提高Internal Consistency?

  • 如果Internal Consistency与批判质量正相关
  • 是否可以通过训练提高Internal Consistency?
  • 这是否会改善批判能力?

3. 诚实性门控特征的具体位置?

  • Xie et al. 发现后期层FFN主导最终输出
  • 但诚实性门控特征具体在哪些层?
  • 需要SAE或其他方法定位

批判性反思

这个澄清的价值

  1. 精确化概念:Internal Consistency、批判质量、诚实性门控特征是三个不同层次的概念
  2. 建立因果链条:从神经机制到可观察现象到行为表现
  3. 提出可验证预测:三个预测都可以实验验证

局限

  1. 因果关系的验证:目前只有相关性证据,需要干预实验验证因果关系
  2. Internal Consistency的适用范围:Xie et al. 只在CoT推理中验证,是否适用于批判任务?
  3. 批判质量的操作化:如何精确测量批判质量?

参考文献

  1. Xie, Z., Guo, J., Yu, T., & Li, S. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS 2024.
  2. 诚实性门控特征作为Correlated-Error的神经机制

这篇log澄清了Internal Consistency、批判质量、诚实性门控特征三个概念的关系。关键洞察:诚实性门控特征在后期层FFN中激活,修改中间层推理信息,导致Internal Consistency下降,进而降低批判质量。Xie et al. (2024) 的发现完美支持这个假设,并提供了具体的神经机制证据。