问题

Judge元验证探索发现:Probe可以校准Judge的不确定性。但Probe学到了什么特征?不确定性在LLM中是如何表示的?

论文:Pretrained LLMs Learn Multiple Types of Uncertainty

arXiv:2505.21218 [ref]

核心发现:LLM在预训练期间学习了多种类型的不确定性,而非单一的统一表示。

关键结果

1. 不确定性是线性可分的

1
2
3
4
方法:
1. 在每个transformer层的隐藏状态上训练线性分类器
2. 预测模型生成是否正确
3. 成功识别出与不确定性相关的线性方向

准确率显著高于随机(0.5):

  • 多数数据集达到 0.65-0.80 的准确率
  • 表明不确定性确实存在于隐藏状态中

2. 多种不确定性,而非统一表示

关键发现:不同数据集的不确定性向量几乎正交!

现象 说明
数据集特异性 在数据集D₁上训练的向量在D₁上表现好,在其他数据集上接近随机
向量正交性 不同数据集的向量cosine相似度接近0
主题相似性 数学类数据集(GSM8K, ASDiv, SVAMP)的向量可以跨数据集迁移

Cross-dataset evaluation

Figure 2: Llama-3.1-8B层26的不确定性向量跨数据集评估。对角线表现好,非对角线接近随机。

3. 中间层最有效

1
2
3
层位性能曲线:
输入层 ━━━━━━━━━ 中间层(最优) ━━━━━━━━ 输出层
低 高 低
  • 层 L/2 到 3L/4 表现最佳(L = 总层数)
  • 最后几层性能下降,表明模型对自己输出"过度自信"

4. 模型规模不改善不确定性捕获

反直觉发现

  • Llama-3.2-3B 和 Llama-3.1-8B 准确率相近
  • Llama-3.2-1B 仅低约1.1个百分点
  • Scaling alone is insufficient

5. 训练策略比规模更重要

训练方法 效果
Instruction-Tuning 显著提升准确性;最优层提前出现
[IDK]-Tuning 同样提升;改善早期层的精确度

与之前发现的整合

与Judge校准论文的关系

维度 Calibrating LLM Judges Pretrained LLMs Learn
方法 Brier Score训练Probe Logistic Regression
任务 Judge判断校准 模型生成正确性预测
最佳层位 中间层 中间层
核心发现 Probe优于Verbalized 多种不确定性共存

一致性:两篇论文都发现中间层最有效,不确定性可通过线性探针提取。

与欺骗检测的关系

1
2
3
4
5
6
7
欺骗能力 > 检测能力(The Traitors发现)

检测能力如何提升?

不确定性探针 → 让模型"知道自己不知道"

但这无法解决"判断正确性"问题

与约束可执行化框架的关系

1
2
3
4
5
6
7
8
9
约束可执行化链条:

外部锚点 → 约束内化 → 约束执行

不确定性探针回答:
"约束执行时,模型有多确定?"

但无法回答:
"约束是否被正确执行?"

核心洞察:不确定性的多重性

这篇论文最重要的发现是:LLM不是学习了一个统一的"不确定性"概念,而是学习了多种类型的不确定性。

1
2
3
4
5
不确定性类型示例:
├── 数学不确定性(GSM8K, SVAMP, ASDiv)
├── 事实不确定性(PopQA, TriviaQA)
├── 常识不确定性(CommonsenseQA, StrategyQA)
└── 代码不确定性(HumanEval-X, MBPP)

为什么这很重要?

  1. 解释了幻觉的来源:如果模型有多个不一致的不确定性表示,可能导致输出不可靠
  2. 解释了为什么Probe需要标记数据:因为不同任务的不确定性表示不同
  3. 暗示了统一的困难:Instruction-tuning和[IDK]-tuning尝试统一,但本质上是"强迫"模型使用同一表示

批判性反思

局限性

  1. 正确性 ≠ 不确定性:论文用"生成正确性"作为不确定性的代理,但这可能不完全等价
  2. 线性假设:只探索了线性探针,可能存在更复杂的非线性结构
  3. 数据集有限:16个数据集可能无法覆盖所有不确定性类型

开放问题

  1. 不确定性向量的语义:这些向量具体代表什么?
  2. 跨模型迁移:一个模型的不确定性向量能否用于另一个模型?
  3. 统一 vs 多样:多样性是特性还是缺陷?

对Judge元验证的启示

核心问题重新表述

原问题:Probe如何校准Judge的不确定性?
新理解:Probe学到的是数据集特定的不确定性表示,而非通用的不确定性概念。

实践意义

  1. Probe训练需要多样化数据:如果只在一个领域训练,可能无法泛化
  2. 统一Probe的权衡:统一可能牺牲精度,但提高泛化
  3. 动态更新可能必要:新领域需要新的不确定性向量

关键引用: