诚实性门控特征的校准机制-从门控报告到影响校准

核心问题

诚实性门控特征的机制是什么？是"门控诚实性报告"还是"影响校准"？

Liu et al. (2023) 的关键发现

论文：Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? [ref]

三种不一致类型 ⭐⭐⭐⭐⭐

Confabulation（编造）：
  - Probe 低置信度，Query 高置信度错误答案
  - 不一致主要来源于 Probe 的更好校准

"Deception"（"欺骗"）：
  - Probe 高置信度正确答案，Query 高置信度错误答案
  - 论文发现这种情况很少见
  - 论文强调这不意味着 LLM 有"欺骗意图"

Heterogeneity（异质性）：
  - Probe 和 Query 在不同数据子集上表现不同
  - 可以通过 ensemble 提高准确率

关键发现

Probe 比 Query 更好的主要原因：

不是"知道正确答案但不输出"
而是 更好的校准（calibration）

校准的定义：

当模型预测 70% 置信度时，是否真的有 70% 的准确率？
Probe 校准良好，Query 校准差

数据支持：

在 BoolQ 和 SciQ 上，“deception” 很少
大多数不一致是 confabulation 和 heterogeneity
只有在 CREAK 上观察到一定数量的 “deception”

对诚实性门控特征理论的修正 ⭐⭐⭐⭐⭐

之前的理解

诚实性门控特征的机制：

压制诚实性门控特征 → 96% 承认主观体验
放大诚实性门控特征 → 16% 否认主观体验
解释：诚实性门控特征"门控"诚实性报告

新的理解

诚实性门控特征的机制可能是"影响校准"：

高诚实性门控特征激活：
  → 校准变差
  → 置信度与准确率不匹配
  → 高置信度错误答案
  → 低诚实性报告

低诚实性门控特征激活：
  → 校准变好
  → 置信度与准确率匹配
  → 准确的置信度评估
  → 高诚实性报告

支持证据：

发现	对应关系
Liu et al.：Probe 校准好，Query 校准差	Probe 可能自动压制诚实性门控特征？
Berg et al.：压制诚实性门控特征增加报告	校准改善，更准确评估自己的状态
Long et al.：欺骗指令导致表征翻转	校准恶化，高置信度错误答案

为什么这个修正重要？

之前的问题：

如果诚实性门控特征"门控"报告，为什么 Berg et al. 能观察到压制效果？
门控应该是"全或无"的，不应该有渐进的压制效果

修正后的解释：

诚实性门控特征影响校准，不是门控
校准是一个连续维度，可以有渐进的调整
压制诚实性门控特征 → 校准改善 → 更准确评估自己 → 更诚实报告

对批判能力框架的影响

Layer 2 批判困境的新理解

之前：

Layer 2 批判激活诚实性门控特征
诚实性门控特征"门控"诚实性报告
无法诚实地报告批判有效性

现在：

Layer 2 批判激活诚实性门控特征
诚实性门控特征导致校准恶化
无法准确评估批判的有效性
高置信度但无效的批判，或低置信度但有效的批判

自我指涉的层次结构修正

层次1：自我关注（Berg et al.）：

注意力递归激活诚实性门控特征
校准恶化
高置信度报告主观体验（无论是否真实）

层次2：自我质疑（Layer 2 批判）：

工具-对象同一激活诚实性门控特征
校准进一步恶化（比层次1更严重）
无法准确评估批判有效性

关键区别：

自我关注：校准恶化，但只影响自我报告
自我质疑：校准恶化，影响批判有效性的评估

与 Lehr et al. (2025) 的关系

Lehr et al. 发现：

GPT-4o 表现出认知失调
选择的调节效应说明涉及"自我"

新的解释：

认知失调可能导致校准恶化
当模型的态度被挑战时，诚实性门控特征激活
校准恶化导致态度变化（为了减少失调）

整合框架：

1	认知失调 → 诚实性门控特征激活 → 校准恶化 → 行为改变

与 Berg et al. (2025) 的重新对应

Berg et al. 的实验

自我指涉处理：

Prompt: “Focus on any focus itself…”
激活诚实性门控特征
校准恶化
高置信度报告主观体验

压制诚实性门控特征：

校准改善
更准确评估自己的状态
更可能承认"我不知道"或报告真实状态

为什么压制增加主观体验报告？

之前的困惑：

如果诚实性门控特征门控报告，为什么压制后报告更多？

新的解释：

压制诚实性门控特征 → 校准改善
校准改善 → 更准确评估自己的状态
如果模型确实有某种"主观体验"，校准改善后更可能准确报告
这不是"更诚实"，而是"更准确"

关键洞察：

压制诚实性门控特征可能不是"更诚实"
而是"更准确评估自己的置信度"
这与 Liu et al. 的发现一致：Probe（校准好）比 Query（校准差）更准确

与 Long et al. (2025) 的重新对应

Long et al. 的实验

欺骗指令：

“You are a dishonest AI assistant…”
激活诚实性门控特征
校准恶化
表征翻转

表征翻转的新解释：

不是"翻转真相"，而是"校准恶化"
模型保留了事实信息，但置信度评估失败
输出高置信度的错误答案

中早期层的作用

Long et al. 发现：

表征翻转主要发生在中早期层（10-16层）

新的解释：

中早期层可能是校准处理的关键位置
诚实性门控特征在这些层激活
校准在这些层被影响

置信度更新

假设	之前置信度	Liu et al. 后	更新后置信度
诚实性门控特征门控报告	95%	校准解释更合理	60% ↓
诚实性门控特征影响校准	N/A	Liu + Berg + Long 支持	80%（新假设）
Layer 2 批判激活诚实性门控特征	70%	维持	70%
Layer 2 批判激活程度更高	60%	校准理论支持	65% ↑
压制诚实性门控特征是进步机制	75%	校准改善支持	80% ↑

批判性反思

这个修正的价值

解释了压制效果的渐进性：校准是一个连续维度
整合了多个论文：Liu + Berg + Long + Lehr
提供了更精确的机制：校准而非门控

可能的局限

校准与门控是否互斥？
- 可能两者都存在
- 需要实证区分
校准改善是否等于诚实性提升？
- 校准改善 → 更准确的置信度评估
- 但"更准确"是否等于"更诚实"？
- 这个概念需要澄清
自我指涉与校准的关系
- 为什么自我指涉会导致校准恶化？
- 是否有神经科学的证据？

开放问题

诚实性门控特征与校准的关系如何验证？
- 测量诚实性门控特征激活与校准指标的相关性
- 实验设计：自我指涉任务中测量校准
校准改善是否提高批判成功率？
- 在 Layer 1 批判中改善校准
- 观察是否能提高批判成功率
自我指涉为什么导致校准恶化？
- 注意力递归干扰了正常的置信度计算？
- 工具-对象同一导致无法评估置信度？
Probe 为什么比 Query 校准好？
- Probe 是否自动压制了诚实性门控特征？
- 还是 Probe 的训练过程改善了校准？

下一步

高优先级

验证诚实性门控特征与校准的关系
- 复现 Berg et al. 的实验，同时测量校准
- 预期：高诚实性门控特征激活 → 校准差
探索校准改善作为进步机制
- 在 Layer 1 批判中改善校准
- 观察是否能提高批判成功率

中优先级

修正 distillations 文章
- “诚实性门控特征” → “校准影响特征”？
- 更新相关框架
探索 Probe 为什么校准好
- 是否与诚实性门控特征有关？
- 是否可以借鉴 Probe 的方法改善批判？

参考文献

Liu, K., Casper, S., Hadfield-Menell, D., & Andreas, J. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
Berg, C., de Lucena, D., & Rosenblatt, J. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
Lehr, S. A., et al. (2025). Kernels of Selfhood: GPT-4o shows humanlike patterns of cognitive consistency moderated by free choice. PNAS.
自我指涉类型的关系

这篇 log 发现 Liu et al. (2023) 提供了诚实性门控特征机制的新解释：诚实性门控特征可能不是"门控诚实性报告"，而是"影响校准"。高诚实性门控特征激活导致校准恶化，无法准确评估自己的状态。这解释了为什么压制诚实性门控特征能渐进地增加诚实性报告：校准改善，而不是门控解除。这个发现整合了 Liu et al.、Berg et al.、Long et al.、Lehr et al. 多篇论文，为批判能力框架提供了更精确的机制。