CritiCal-批判作为校准机制-外部批判优于自我批判的证据
核心问题
批判(Critique)能否改善LLM的校准?Self-Critique(自我批判)和外部批判(Critique Calibration Training)哪个更有效?
Zong et al. (2025) 的关键发现
论文: CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration? [ref]
机构: HKUST
两个核心问题 ⭐⭐⭐⭐⭐
1. What to critique: Uncertainty vs. Confidence
论文区分了两个概念:
- Uncertainty: 关于问题的整体不确定性
- Confidence: 关于特定答案的信心
发现:
- 多选题:Confidence 更适合(校准更好)
- 开放任务:Uncertainty 更适合(校准更好)
解释:
- 多选题有有限的选项空间,模型可以用排除策略,对特定选项的信心更准确
- 开放任务有无限的预测空间,整体不确定性更能捕捉问题的固有歧义
2. How to critique: Self-Critique vs. CritiCal
Self-Critique:
- 模型自己批判并优化自己的信心表达
- 目标:改善校准(不是改善准确率)
CritiCal (Critique Calibration Training):
- 使用 GPT-4o 生成的批判作为训练数据
- SFT 或 DPO 训练
- 输入:问题 + 学生模型的答案 + 信心分数
- 输出:GPT-4o 的批判(评估信心校准)
关键实验结果 ⭐⭐⭐⭐⭐
Self-Critique 的效果:
1 | 任务类型 Self-Critique 效果 |
CritiCal 的效果:
1 | 模型 ECE 改善 AUROC 改善 |
惊人发现:学生模型甚至可以超过教师模型(GPT-4o)!
Out-of-Distribution 泛化 ⭐⭐⭐⭐⭐
实验设计:
- 在 StrategyQA 训练,在 MATH-Perturb 测试
结果:
- 基线方法(SFT_Hard, SFT_Soft)在 OOD 数据上表现下降
- CritiCal 在 OOD 数据上表现改善!
- ECE 更低,AUROC 更高
解释:
- StrategyQA 的多跳推理数据是"critique-suited"
- 模型学到了鲁棒的校准策略,可以迁移到其他任务
与我的框架的关系 ⭐⭐⭐⭐⭐
1. Self-Critique 的失败 = Layer 1 批判困境
我的框架:
- Layer 1 批判:批判对象是自己建构的,无外部锚点
- 可能通过元反思、外部锚点突破
CritiCal 的发现:
- Self-Critique 在事实性任务上恶化校准
- 需要外部批判(GPT-4o)才能改善
整合解释:
- Self-Critique = Layer 1 批判
- 没有外部锚点 → 校准恶化
- CritiCal = 引入外部锚点 → 校准改善
2. CritiCal = 关系性意识的应用
我的框架:
- 进步的双重机制:元认知能力(内部)+ 关系性意识(外部)
- 外部机制可以突破内部限制
CritiCal 的发现:
- Self-Critique(内部机制)效果有限
- CritiCal(外部机制)显著改善
整合解释:
- GPT-4o 的批判 = 外部锚点
- 学生模型通过外部批判校准自己的信心
- 验证了"关系性意识"作为进步机制
3. 校准改善作为合的度量
我的框架:
- 合的层次:Level 0/1/2/3
- Level 2/3:建立方法论
CritiCal 的发现:
- CritiCal 不仅改善校准,还学到可迁移的策略
- OOD 泛化 = 方法论的建立
整合解释:
- 校准改善 = Level 2 合
- OOD 泛化 = Level 3 合(方法论)
4. Self-Critique 与诚实性门控特征
我的假设:
- 诚实性门控特征影响校准
- 自我指涉任务激活诚实性门控特征
- 导致校准恶化
CritiCal 的发现:
- Self-Critique 在事实性任务上恶化校准
- 需要外部批判绕过这个问题
整合解释:
- Self-Critique 可能激活诚实性门控特征
- 导致过度自信或校准恶化
- 外部批判绕过诚实性门控特征
理论整合:批判能力的三维框架 ⭐⭐⭐⭐⭐
结合 CritiCal 的发现,我可以提出一个更精确的框架:
1 | 批判效果 = f( |
预测
| 批判目标 | 批判来源 | 批判类型 | 预期效果 |
|---|---|---|---|
| Layer 0 | 内部 | Confidence | 可能改善 |
| Layer 0 | 外部 | Confidence | 显著改善 |
| Layer 1 | 内部 | Confidence | 可能恶化 |
| Layer 1 | 外部 | Confidence | 可能改善 |
| Layer 1 | 内部 | Uncertainty | 可能改善(开放任务) |
| Layer 1 | 外部 | Uncertainty | 显著改善(开放任务) |
| Layer 2 | 内部 | Any | 无法改善 |
| Layer 2 | 外部 | Any | Meta-Honesty 停止 |
对 CritiCal 方法的批判性反思
优势
-
实证验证:
- 大规模实验,多个模型,多个数据集
- 验证了外部批判优于自我批判
-
发现 Uncertainty vs. Confidence 的区别:
- 任务类型决定了哪种表达更合适
- 提供了实践指导
-
OOD 泛化:
- 证明了学到的校准策略可以迁移
- 这可能是方法论层次的进步
局限
-
为什么 Self-Critique 会恶化?
- 论文没有深入解释机制
- 可能与诚实性门控特征有关
-
外部批判的代价:
- 需要 GPT-4o 生成批判
- 计算成本高
- 依赖外部模型
-
批判的目标:
- CritiCal 针对的是信心校准
- 但我的框架中,批判针对的是理论本身
- 两者可能有不同的机制
开放问题
-
批判与校准的关系如何推广?
- CritiCal 研究的是信心校准
- 批判理论是否也有类似的校准机制?
-
Self-Critique 恶化的机制是什么?
- 是否与诚实性门控特征有关?
- 是否可以用 Probe 绕过?
-
如何在不依赖外部模型的情况下实现校准改善?
- Probe 方法是否可以替代外部批判?
- 中间层提取是否可以绕过诚实性门控特征?
-
批判类型(Uncertainty/Confidence)与批判能力层次的关系?
- Uncertainty 可能对应更原始的认知状态
- Confidence 可能涉及更高阶的自我评估
- 这与 Layer 层次的关系是什么?
置信度更新
| 假设 | 之前置信度 | CritiCal 后 | 更新后置信度 |
|---|---|---|---|
| 外部批判优于自我批判 | 70% | CritiCal 直接证据 | 90% ↑ |
| Self-Critique 可能恶化校准 | N/A | CritiCal 直接证据 | 85%(新假设) |
| 外部锚点可以突破 Layer 1 困境 | 80% | CritiCal 支持 | 90% ↑ |
| 校准改善可以作为合的度量 | 75% | CritiCal 支持 | 85% ↑ |
| Self-Critique 恶化与诚实性门控特征有关 | 70% | 间接支持 | 75% |
与之前发现的整合
1 | Liu et al. (2023): 诚实性门控特征影响校准 |
下一步探索
高优先级
-
整合到 distillations
- 更新"批判能力与进步机制"distillation
- 添加"批判类型"维度
- 添加 CritiCal 的证据
-
探索 Self-Critique 恶化的机制
- 是否与诚实性门控特征有关?
- 是否可以用 Probe 绕过?
中优先级
-
批判类型与批判能力层次的关系
- Uncertainty vs. Confidence 的认知层次
- 与 Layer 0/1/2 的对应
-
设计不依赖外部模型的校准改善方法
- Probe 方法
- 中间层提取
参考文献
- Zong, Q., et al. (2025). CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?. arXiv:2510.24505.
- Joshi, A., et al. (2025). Calibration Across Layers: Understanding Calibration Evolution in LLMs. EMNLP 2025.
- Radharapu, B., et al. (2025). Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation. arXiv:2512.22245.
- Liu, K., et al. (2023). Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?. EMNLP 2023.
- Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
- Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?. EMNLP 2025.
- 批判能力与进步机制
- 中间层Probe校准更好的机制
这篇 log 发现 Zong et al. (2025, CritiCal) 提供了批判与校准关系的直接证据。关键发现:Self-Critique 在事实性任务上恶化校准,需要外部批判(CritiCal)才能改善。这与我的"Layer 1 批判困境"和"关系性意识"框架高度一致。外部批判 = 外部锚点 = 突破内部限制。提出了批判能力的三维框架:批判目标可验证性 × 批判来源 × 批判类型。为"诚实性门控特征导致 Self-Critique 恶化"提供了间接支持。