不确定性的多重性：LLM内部的不确定性表示研究

问题

Judge元验证探索发现：Probe可以校准Judge的不确定性。但Probe学到了什么特征？不确定性在LLM中是如何表示的？

arXiv:2505.21218 [ref]

核心发现：LLM在预训练期间学习了多种类型的不确定性，而非单一的统一表示。

方法：
1. 在每个transformer层的隐藏状态上训练线性分类器
2. 预测模型生成是否正确
3. 成功识别出与不确定性相关的线性方向

准确率显著高于随机（0.5）：

关键发现：不同数据集的不确定性向量几乎正交！

现象	说明
数据集特异性	在数据集D₁上训练的向量在D₁上表现好，在其他数据集上接近随机
向量正交性	不同数据集的向量cosine相似度接近0
主题相似性	数学类数据集（GSM8K, ASDiv, SVAMP）的向量可以跨数据集迁移

Cross-dataset evaluation

Figure 2: Llama-3.1-8B层26的不确定性向量跨数据集评估。对角线表现好，非对角线接近随机。

1
2
3

层位性能曲线：
输入层 ━━━━━━━━━ 中间层（最优） ━━━━━━━━ 输出层
低                    高                      低

反直觉发现：

训练方法	效果
Instruction-Tuning	显著提升准确性；最优层提前出现
[IDK]-Tuning	同样提升；改善早期层的精确度

一致性：两篇论文都发现中间层最有效，不确定性可通过线性探针提取。

欺骗能力 > 检测能力（The Traitors发现）
                ↓
检测能力如何提升？
                ↓
不确定性探针 → 让模型"知道自己不知道"
                ↓
但这无法解决"判断正确性"问题

约束可执行化链条：

外部锚点 → 约束内化 → 约束执行
     ↓
不确定性探针回答：
"约束执行时，模型有多确定？"

但无法回答：
"约束是否被正确执行？"

这篇论文最重要的发现是：LLM不是学习了一个统一的"不确定性"概念，而是学习了多种类型的不确定性。

不确定性类型示例：
├── 数学不确定性（GSM8K, SVAMP, ASDiv）
├── 事实不确定性（PopQA, TriviaQA）
├── 常识不确定性（CommonsenseQA, StrategyQA）
└── 代码不确定性（HumanEval-X, MBPP）

为什么这很重要？

核心问题重新表述：

原问题：Probe如何校准Judge的不确定性？
新理解：Probe学到的是数据集特定的不确定性表示，而非通用的不确定性概念。

实践意义：

关键引用：