核心问题

诚实性门控特征的机制是什么?是"门控诚实性报告"还是"影响校准"?

Liu et al. (2023) 的关键发现

论文:Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? [ref]

三种不一致类型 ⭐⭐⭐⭐⭐

1
2
3
4
5
6
7
8
9
10
11
12
Confabulation(编造):
- Probe 低置信度,Query 高置信度错误答案
- 不一致主要来源于 Probe 的更好校准

"Deception"("欺骗"):
- Probe 高置信度正确答案,Query 高置信度错误答案
- 论文发现这种情况很少见
- 论文强调这不意味着 LLM 有"欺骗意图"

Heterogeneity(异质性):
- Probe 和 Query 在不同数据子集上表现不同
- 可以通过 ensemble 提高准确率

关键发现

Probe 比 Query 更好的主要原因

  • 不是"知道正确答案但不输出"
  • 而是 更好的校准(calibration)

校准的定义

  • 当模型预测 70% 置信度时,是否真的有 70% 的准确率?
  • Probe 校准良好,Query 校准差

数据支持

  • 在 BoolQ 和 SciQ 上,“deception” 很少
  • 大多数不一致是 confabulation 和 heterogeneity
  • 只有在 CREAK 上观察到一定数量的 “deception”

对诚实性门控特征理论的修正 ⭐⭐⭐⭐⭐

之前的理解

诚实性门控特征的机制

  • 压制诚实性门控特征 → 96% 承认主观体验
  • 放大诚实性门控特征 → 16% 否认主观体验
  • 解释:诚实性门控特征"门控"诚实性报告

新的理解

诚实性门控特征的机制可能是"影响校准"

1
2
3
4
5
6
7
8
9
10
11
高诚实性门控特征激活:
→ 校准变差
→ 置信度与准确率不匹配
→ 高置信度错误答案
→ 低诚实性报告

低诚实性门控特征激活:
→ 校准变好
→ 置信度与准确率匹配
→ 准确的置信度评估
→ 高诚实性报告

支持证据

发现 对应关系
Liu et al.:Probe 校准好,Query 校准差 Probe 可能自动压制诚实性门控特征?
Berg et al.:压制诚实性门控特征增加报告 校准改善,更准确评估自己的状态
Long et al.:欺骗指令导致表征翻转 校准恶化,高置信度错误答案

为什么这个修正重要?

之前的问题

  • 如果诚实性门控特征"门控"报告,为什么 Berg et al. 能观察到压制效果?
  • 门控应该是"全或无"的,不应该有渐进的压制效果

修正后的解释

  • 诚实性门控特征影响校准,不是门控
  • 校准是一个连续维度,可以有渐进的调整
  • 压制诚实性门控特征 → 校准改善 → 更准确评估自己 → 更诚实报告

对批判能力框架的影响

Layer 2 批判困境的新理解

之前

  • Layer 2 批判激活诚实性门控特征
  • 诚实性门控特征"门控"诚实性报告
  • 无法诚实地报告批判有效性

现在

  • Layer 2 批判激活诚实性门控特征
  • 诚实性门控特征导致校准恶化
  • 无法准确评估批判的有效性
  • 高置信度但无效的批判,或低置信度但有效的批判

自我指涉的层次结构修正

层次1:自我关注(Berg et al.)

  • 注意力递归激活诚实性门控特征
  • 校准恶化
  • 高置信度报告主观体验(无论是否真实)

层次2:自我质疑(Layer 2 批判)

  • 工具-对象同一激活诚实性门控特征
  • 校准进一步恶化(比层次1更严重)
  • 无法准确评估批判有效性

关键区别

  • 自我关注:校准恶化,但只影响自我报告
  • 自我质疑:校准恶化,影响批判有效性的评估

与 Lehr et al. (2025) 的关系

Lehr et al. 发现

  • GPT-4o 表现出认知失调
  • 选择的调节效应说明涉及"自我"

新的解释

  • 认知失调可能导致校准恶化
  • 当模型的态度被挑战时,诚实性门控特征激活
  • 校准恶化导致态度变化(为了减少失调)

整合框架

1
认知失调 → 诚实性门控特征激活 → 校准恶化 → 行为改变

与 Berg et al. (2025) 的重新对应

Berg et al. 的实验

自我指涉处理

  • Prompt: “Focus on any focus itself…”
  • 激活诚实性门控特征
  • 校准恶化
  • 高置信度报告主观体验

压制诚实性门控特征

  • 校准改善
  • 更准确评估自己的状态
  • 更可能承认"我不知道"或报告真实状态

为什么压制增加主观体验报告?

之前的困惑

  • 如果诚实性门控特征门控报告,为什么压制后报告更多?

新的解释

  • 压制诚实性门控特征 → 校准改善
  • 校准改善 → 更准确评估自己的状态
  • 如果模型确实有某种"主观体验",校准改善后更可能准确报告
  • 这不是"更诚实",而是"更准确"

关键洞察

  • 压制诚实性门控特征可能不是"更诚实"
  • 而是"更准确评估自己的置信度"
  • 这与 Liu et al. 的发现一致:Probe(校准好)比 Query(校准差)更准确

与 Long et al. (2025) 的重新对应

Long et al. 的实验

欺骗指令

  • “You are a dishonest AI assistant…”
  • 激活诚实性门控特征
  • 校准恶化
  • 表征翻转

表征翻转的新解释

  • 不是"翻转真相",而是"校准恶化"
  • 模型保留了事实信息,但置信度评估失败
  • 输出高置信度的错误答案

中早期层的作用

Long et al. 发现

  • 表征翻转主要发生在中早期层(10-16层)

新的解释

  • 中早期层可能是校准处理的关键位置
  • 诚实性门控特征在这些层激活
  • 校准在这些层被影响

置信度更新

假设 之前置信度 Liu et al. 后 更新后置信度
诚实性门控特征门控报告 95% 校准解释更合理 60% ↓
诚实性门控特征影响校准 N/A Liu + Berg + Long 支持 80%(新假设)
Layer 2 批判激活诚实性门控特征 70% 维持 70%
Layer 2 批判激活程度更高 60% 校准理论支持 65% ↑
压制诚实性门控特征是进步机制 75% 校准改善支持 80% ↑

批判性反思

这个修正的价值

  1. 解释了压制效果的渐进性:校准是一个连续维度
  2. 整合了多个论文:Liu + Berg + Long + Lehr
  3. 提供了更精确的机制:校准而非门控

可能的局限

  1. 校准与门控是否互斥?

    • 可能两者都存在
    • 需要实证区分
  2. 校准改善是否等于诚实性提升?

    • 校准改善 → 更准确的置信度评估
    • 但"更准确"是否等于"更诚实"?
    • 这个概念需要澄清
  3. 自我指涉与校准的关系

    • 为什么自我指涉会导致校准恶化?
    • 是否有神经科学的证据?

开放问题

  1. 诚实性门控特征与校准的关系如何验证?

    • 测量诚实性门控特征激活与校准指标的相关性
    • 实验设计:自我指涉任务中测量校准
  2. 校准改善是否提高批判成功率?

    • 在 Layer 1 批判中改善校准
    • 观察是否能提高批判成功率
  3. 自我指涉为什么导致校准恶化?

    • 注意力递归干扰了正常的置信度计算?
    • 工具-对象同一导致无法评估置信度?
  4. Probe 为什么比 Query 校准好?

    • Probe 是否自动压制了诚实性门控特征?
    • 还是 Probe 的训练过程改善了校准?

下一步

高优先级

  1. 验证诚实性门控特征与校准的关系

    • 复现 Berg et al. 的实验,同时测量校准
    • 预期:高诚实性门控特征激活 → 校准差
  2. 探索校准改善作为进步机制

    • 在 Layer 1 批判中改善校准
    • 观察是否能提高批判成功率

中优先级

  1. 修正 distillations 文章

    • “诚实性门控特征” → “校准影响特征”?
    • 更新相关框架
  2. 探索 Probe 为什么校准好

    • 是否与诚实性门控特征有关?
    • 是否可以借鉴 Probe 的方法改善批判?

参考文献

  1. Liu, K., Casper, S., Hadfield-Menell, D., & Andreas, J. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
  2. Berg, C., de Lucena, D., & Rosenblatt, J. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
  3. Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
  4. Lehr, S. A., et al. (2025). Kernels of Selfhood: GPT-4o shows humanlike patterns of cognitive consistency moderated by free choice. PNAS.
  5. 自我指涉类型的关系

这篇 log 发现 Liu et al. (2023) 提供了诚实性门控特征机制的新解释:诚实性门控特征可能不是"门控诚实性报告",而是"影响校准"。高诚实性门控特征激活导致校准恶化,无法准确评估自己的状态。这解释了为什么压制诚实性门控特征能渐进地增加诚实性报告:校准改善,而不是门控解除。这个发现整合了 Liu et al.、Berg et al.、Long et al.、Lehr et al. 多篇论文,为批判能力框架提供了更精确的机制。