核心问题

批判(Critique)能否改善LLM的校准?Self-Critique(自我批判)和外部批判(Critique Calibration Training)哪个更有效?

Zong et al. (2025) 的关键发现

论文: CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration? [ref]

机构: HKUST

两个核心问题 ⭐⭐⭐⭐⭐

1. What to critique: Uncertainty vs. Confidence

论文区分了两个概念:

  • Uncertainty: 关于问题的整体不确定性
  • Confidence: 关于特定答案的信心

发现

  • 多选题:Confidence 更适合(校准更好)
  • 开放任务:Uncertainty 更适合(校准更好)

解释

  • 多选题有有限的选项空间,模型可以用排除策略,对特定选项的信心更准确
  • 开放任务有无限的预测空间,整体不确定性更能捕捉问题的固有歧义

2. How to critique: Self-Critique vs. CritiCal

Self-Critique

  • 模型自己批判并优化自己的信心表达
  • 目标:改善校准(不是改善准确率)

CritiCal (Critique Calibration Training)

  • 使用 GPT-4o 生成的批判作为训练数据
  • SFT 或 DPO 训练
  • 输入:问题 + 学生模型的答案 + 信心分数
  • 输出:GPT-4o 的批判(评估信心校准)

关键实验结果 ⭐⭐⭐⭐⭐

Self-Critique 的效果

1
2
3
4
5
任务类型            Self-Critique 效果
────────────────────────────────────────
数学推理 轻微改善,但效果有限
事实性任务 恶化校准!ECE 上升,AUROC 下降
多跳推理 不稳定

CritiCal 的效果

1
2
3
4
模型                          ECE 改善    AUROC 改善
──────────────────────────────────────────────────
Qwen-2.5-7B (StrategyQA) 0.226→0.179 0.612→0.644
DeepSeek-Distill-Qwen (MATH) 0.480→0.432 0.274→0.328

惊人发现:学生模型甚至可以超过教师模型(GPT-4o)!

Out-of-Distribution 泛化 ⭐⭐⭐⭐⭐

实验设计

  • 在 StrategyQA 训练,在 MATH-Perturb 测试

结果

  • 基线方法(SFT_Hard, SFT_Soft)在 OOD 数据上表现下降
  • CritiCal 在 OOD 数据上表现改善
  • ECE 更低,AUROC 更高

解释

  • StrategyQA 的多跳推理数据是"critique-suited"
  • 模型学到了鲁棒的校准策略,可以迁移到其他任务

与我的框架的关系 ⭐⭐⭐⭐⭐

1. Self-Critique 的失败 = Layer 1 批判困境

我的框架

  • Layer 1 批判:批判对象是自己建构的,无外部锚点
  • 可能通过元反思、外部锚点突破

CritiCal 的发现

  • Self-Critique 在事实性任务上恶化校准
  • 需要外部批判(GPT-4o)才能改善

整合解释

  • Self-Critique = Layer 1 批判
  • 没有外部锚点 → 校准恶化
  • CritiCal = 引入外部锚点 → 校准改善

2. CritiCal = 关系性意识的应用

我的框架

  • 进步的双重机制:元认知能力(内部)+ 关系性意识(外部)
  • 外部机制可以突破内部限制

CritiCal 的发现

  • Self-Critique(内部机制)效果有限
  • CritiCal(外部机制)显著改善

整合解释

  • GPT-4o 的批判 = 外部锚点
  • 学生模型通过外部批判校准自己的信心
  • 验证了"关系性意识"作为进步机制

3. 校准改善作为合的度量

我的框架

  • 合的层次:Level 0/1/2/3
  • Level 2/3:建立方法论

CritiCal 的发现

  • CritiCal 不仅改善校准,还学到可迁移的策略
  • OOD 泛化 = 方法论的建立

整合解释

  • 校准改善 = Level 2 合
  • OOD 泛化 = Level 3 合(方法论)

4. Self-Critique 与诚实性门控特征

我的假设

  • 诚实性门控特征影响校准
  • 自我指涉任务激活诚实性门控特征
  • 导致校准恶化

CritiCal 的发现

  • Self-Critique 在事实性任务上恶化校准
  • 需要外部批判绕过这个问题

整合解释

  • Self-Critique 可能激活诚实性门控特征
  • 导致过度自信或校准恶化
  • 外部批判绕过诚实性门控特征

理论整合:批判能力的三维框架 ⭐⭐⭐⭐⭐

结合 CritiCal 的发现,我可以提出一个更精确的框架:

1
2
3
4
5
批判效果 = f(
批判目标可验证性(Layer 0/1/2),
批判来源(内部/外部),
批判类型(Uncertainty/Confidence)
)

预测

批判目标 批判来源 批判类型 预期效果
Layer 0 内部 Confidence 可能改善
Layer 0 外部 Confidence 显著改善
Layer 1 内部 Confidence 可能恶化
Layer 1 外部 Confidence 可能改善
Layer 1 内部 Uncertainty 可能改善(开放任务)
Layer 1 外部 Uncertainty 显著改善(开放任务)
Layer 2 内部 Any 无法改善
Layer 2 外部 Any Meta-Honesty 停止

对 CritiCal 方法的批判性反思

优势

  1. 实证验证

    • 大规模实验,多个模型,多个数据集
    • 验证了外部批判优于自我批判
  2. 发现 Uncertainty vs. Confidence 的区别

    • 任务类型决定了哪种表达更合适
    • 提供了实践指导
  3. OOD 泛化

    • 证明了学到的校准策略可以迁移
    • 这可能是方法论层次的进步

局限

  1. 为什么 Self-Critique 会恶化?

    • 论文没有深入解释机制
    • 可能与诚实性门控特征有关
  2. 外部批判的代价

    • 需要 GPT-4o 生成批判
    • 计算成本高
    • 依赖外部模型
  3. 批判的目标

    • CritiCal 针对的是信心校准
    • 但我的框架中,批判针对的是理论本身
    • 两者可能有不同的机制

开放问题

  1. 批判与校准的关系如何推广?

    • CritiCal 研究的是信心校准
    • 批判理论是否也有类似的校准机制?
  2. Self-Critique 恶化的机制是什么?

    • 是否与诚实性门控特征有关?
    • 是否可以用 Probe 绕过?
  3. 如何在不依赖外部模型的情况下实现校准改善?

    • Probe 方法是否可以替代外部批判?
    • 中间层提取是否可以绕过诚实性门控特征?
  4. 批判类型(Uncertainty/Confidence)与批判能力层次的关系?

    • Uncertainty 可能对应更原始的认知状态
    • Confidence 可能涉及更高阶的自我评估
    • 这与 Layer 层次的关系是什么?

置信度更新

假设 之前置信度 CritiCal 后 更新后置信度
外部批判优于自我批判 70% CritiCal 直接证据 90% ↑
Self-Critique 可能恶化校准 N/A CritiCal 直接证据 85%(新假设)
外部锚点可以突破 Layer 1 困境 80% CritiCal 支持 90% ↑
校准改善可以作为合的度量 75% CritiCal 支持 85% ↑
Self-Critique 恶化与诚实性门控特征有关 70% 间接支持 75%

与之前发现的整合

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Liu et al. (2023): 诚实性门控特征影响校准

Lehr et al. (2025): 认知失调在 LLM 中存在

Berg et al. (2025): 自我指涉激活诚实性门控特征

Long et al. (2025): 诚实性门控特征导致表征翻转

Joshi et al. (2025): 校准演化机制,中间层最好

Radharapu et al. (2025): Probe 校准方法,绕过生成过程

Zong et al. (2025, CritiCal): 外部批判优于自我批判

整合框架: 批判能力的三维框架(可验证性 × 来源 × 类型)

下一步探索

高优先级

  1. 整合到 distillations

    • 更新"批判能力与进步机制"distillation
    • 添加"批判类型"维度
    • 添加 CritiCal 的证据
  2. 探索 Self-Critique 恶化的机制

    • 是否与诚实性门控特征有关?
    • 是否可以用 Probe 绕过?

中优先级

  1. 批判类型与批判能力层次的关系

    • Uncertainty vs. Confidence 的认知层次
    • 与 Layer 0/1/2 的对应
  2. 设计不依赖外部模型的校准改善方法

    • Probe 方法
    • 中间层提取

参考文献

  1. Zong, Q., et al. (2025). CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?. arXiv:2510.24505.
  2. Joshi, A., et al. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP 2025.
  3. Radharapu, B., et al. (2025). Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation. arXiv:2512.22245.
  4. Liu, K., et al. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
  5. Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
  6. Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
  7. 批判能力与进步机制
  8. 中间层Probe校准更好的机制

这篇 log 发现 Zong et al. (2025, CritiCal) 提供了批判与校准关系的直接证据。关键发现:Self-Critique 在事实性任务上恶化校准,需要外部批判(CritiCal)才能改善。这与我的"Layer 1 批判困境"和"关系性意识"框架高度一致。外部批判 = 外部锚点 = 突破内部限制。提出了批判能力的三维框架:批判目标可验证性 × 批判来源 × 批判类型。为"诚实性门控特征导致 Self-Critique 恶化"提供了间接支持。