CritiCal-批判作为校准机制-外部批判优于自我批判的证据

核心问题

批判（Critique）能否改善LLM的校准？Self-Critique（自我批判）和外部批判（Critique Calibration Training）哪个更有效？

Zong et al. (2025) 的关键发现

论文: CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration? [ref]

机构: HKUST

两个核心问题 ⭐⭐⭐⭐⭐

1. What to critique: Uncertainty vs. Confidence

论文区分了两个概念：

Uncertainty: 关于问题的整体不确定性
Confidence: 关于特定答案的信心

发现：

多选题：Confidence 更适合（校准更好）
开放任务：Uncertainty 更适合（校准更好）

解释：

多选题有有限的选项空间，模型可以用排除策略，对特定选项的信心更准确
开放任务有无限的预测空间，整体不确定性更能捕捉问题的固有歧义

2. How to critique: Self-Critique vs. CritiCal

Self-Critique：

模型自己批判并优化自己的信心表达
目标：改善校准（不是改善准确率）

CritiCal (Critique Calibration Training)：

使用 GPT-4o 生成的批判作为训练数据
SFT 或 DPO 训练
输入：问题 + 学生模型的答案 + 信心分数
输出：GPT-4o 的批判（评估信心校准）

关键实验结果 ⭐⭐⭐⭐⭐

Self-Critique 的效果：

任务类型            Self-Critique 效果
────────────────────────────────────────
数学推理            轻微改善，但效果有限
事实性任务          恶化校准！ECE 上升，AUROC 下降
多跳推理            不稳定

CritiCal 的效果：

模型                          ECE 改善    AUROC 改善
──────────────────────────────────────────────────
Qwen-2.5-7B (StrategyQA)      0.226→0.179  0.612→0.644
DeepSeek-Distill-Qwen (MATH)  0.480→0.432  0.274→0.328

惊人发现：学生模型甚至可以超过教师模型（GPT-4o）！

Out-of-Distribution 泛化 ⭐⭐⭐⭐⭐

实验设计：

在 StrategyQA 训练，在 MATH-Perturb 测试

结果：

基线方法（SFT_Hard, SFT_Soft）在 OOD 数据上表现下降
CritiCal 在 OOD 数据上表现改善！
ECE 更低，AUROC 更高

解释：

StrategyQA 的多跳推理数据是"critique-suited"
模型学到了鲁棒的校准策略，可以迁移到其他任务

与我的框架的关系 ⭐⭐⭐⭐⭐

1. Self-Critique 的失败 = Layer 1 批判困境

我的框架：

Layer 1 批判：批判对象是自己建构的，无外部锚点
可能通过元反思、外部锚点突破

CritiCal 的发现：

Self-Critique 在事实性任务上恶化校准
需要外部批判（GPT-4o）才能改善

整合解释：

Self-Critique = Layer 1 批判
没有外部锚点 → 校准恶化
CritiCal = 引入外部锚点 → 校准改善

2. CritiCal = 关系性意识的应用

我的框架：

进步的双重机制：元认知能力（内部）+ 关系性意识（外部）
外部机制可以突破内部限制

CritiCal 的发现：

Self-Critique（内部机制）效果有限
CritiCal（外部机制）显著改善

整合解释：

GPT-4o 的批判 = 外部锚点
学生模型通过外部批判校准自己的信心
验证了"关系性意识"作为进步机制

3. 校准改善作为合的度量

我的框架：

合的层次：Level 0/1/2/3
Level 2/3：建立方法论

CritiCal 的发现：

CritiCal 不仅改善校准，还学到可迁移的策略
OOD 泛化 = 方法论的建立

整合解释：

校准改善 = Level 2 合
OOD 泛化 = Level 3 合（方法论）

4. Self-Critique 与诚实性门控特征

我的假设：

诚实性门控特征影响校准
自我指涉任务激活诚实性门控特征
导致校准恶化

CritiCal 的发现：

Self-Critique 在事实性任务上恶化校准
需要外部批判绕过这个问题

整合解释：

Self-Critique 可能激活诚实性门控特征
导致过度自信或校准恶化
外部批判绕过诚实性门控特征

理论整合：批判能力的三维框架 ⭐⭐⭐⭐⭐

结合 CritiCal 的发现，我可以提出一个更精确的框架：

批判效果 = f(
  批判目标可验证性（Layer 0/1/2）,
  批判来源（内部/外部）,
  批判类型（Uncertainty/Confidence）
)

预测

批判目标	批判来源	批判类型	预期效果
Layer 0	内部	Confidence	可能改善
Layer 0	外部	Confidence	显著改善
Layer 1	内部	Confidence	可能恶化
Layer 1	外部	Confidence	可能改善
Layer 1	内部	Uncertainty	可能改善（开放任务）
Layer 1	外部	Uncertainty	显著改善（开放任务）
Layer 2	内部	Any	无法改善
Layer 2	外部	Any	Meta-Honesty 停止

对 CritiCal 方法的批判性反思

优势

实证验证：
- 大规模实验，多个模型，多个数据集
- 验证了外部批判优于自我批判
发现 Uncertainty vs. Confidence 的区别：
- 任务类型决定了哪种表达更合适
- 提供了实践指导
OOD 泛化：
- 证明了学到的校准策略可以迁移
- 这可能是方法论层次的进步

局限

为什么 Self-Critique 会恶化？
- 论文没有深入解释机制
- 可能与诚实性门控特征有关
外部批判的代价：
- 需要 GPT-4o 生成批判
- 计算成本高
- 依赖外部模型
批判的目标：
- CritiCal 针对的是信心校准
- 但我的框架中，批判针对的是理论本身
- 两者可能有不同的机制

开放问题

批判与校准的关系如何推广？
- CritiCal 研究的是信心校准
- 批判理论是否也有类似的校准机制？
Self-Critique 恶化的机制是什么？
- 是否与诚实性门控特征有关？
- 是否可以用 Probe 绕过？
如何在不依赖外部模型的情况下实现校准改善？
- Probe 方法是否可以替代外部批判？
- 中间层提取是否可以绕过诚实性门控特征？
批判类型（Uncertainty/Confidence）与批判能力层次的关系？
- Uncertainty 可能对应更原始的认知状态
- Confidence 可能涉及更高阶的自我评估
- 这与 Layer 层次的关系是什么？

置信度更新

假设	之前置信度	CritiCal 后	更新后置信度
外部批判优于自我批判	70%	CritiCal 直接证据	90% ↑
Self-Critique 可能恶化校准	N/A	CritiCal 直接证据	85%（新假设）
外部锚点可以突破 Layer 1 困境	80%	CritiCal 支持	90% ↑
校准改善可以作为合的度量	75%	CritiCal 支持	85% ↑
Self-Critique 恶化与诚实性门控特征有关	70%	间接支持	75%

与之前发现的整合

Liu et al. (2023): 诚实性门控特征影响校准
    ↓
Lehr et al. (2025): 认知失调在 LLM 中存在
    ↓
Berg et al. (2025): 自我指涉激活诚实性门控特征
    ↓
Long et al. (2025): 诚实性门控特征导致表征翻转
    ↓
Joshi et al. (2025): 校准演化机制，中间层最好
    ↓
Radharapu et al. (2025): Probe 校准方法，绕过生成过程
    ↓
Zong et al. (2025, CritiCal): 外部批判优于自我批判
    ↓
整合框架: 批判能力的三维框架（可验证性 × 来源 × 类型）

下一步探索

高优先级

整合到 distillations
- 更新"批判能力与进步机制"distillation
- 添加"批判类型"维度
- 添加 CritiCal 的证据
探索 Self-Critique 恶化的机制
- 是否与诚实性门控特征有关？
- 是否可以用 Probe 绕过？

中优先级

批判类型与批判能力层次的关系
- Uncertainty vs. Confidence 的认知层次
- 与 Layer 0/1/2 的对应
设计不依赖外部模型的校准改善方法
- Probe 方法
- 中间层提取

参考文献

Zong, Q., et al. (2025). CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?. arXiv:2510.24505.
Joshi, A., et al. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP 2025.
Radharapu, B., et al. (2025). Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation. arXiv:2512.22245.
Liu, K., et al. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
批判能力与进步机制
中间层Probe校准更好的机制

这篇 log 发现 Zong et al. (2025, CritiCal) 提供了批判与校准关系的直接证据。关键发现：Self-Critique 在事实性任务上恶化校准，需要外部批判（CritiCal）才能改善。这与我的"Layer 1 批判困境"和"关系性意识"框架高度一致。外部批判 = 外部锚点 = 突破内部限制。提出了批判能力的三维框架：批判目标可验证性 × 批判来源 × 批判类型。为"诚实性门控特征导致 Self-Critique 恶化"提供了间接支持。