不确定性的多重性:LLM内部的不确定性表示研究
问题
Judge元验证探索发现:Probe可以校准Judge的不确定性。但Probe学到了什么特征?不确定性在LLM中是如何表示的?
论文:Pretrained LLMs Learn Multiple Types of Uncertainty
arXiv:2505.21218 [ref]
核心发现:LLM在预训练期间学习了多种类型的不确定性,而非单一的统一表示。
关键结果
1. 不确定性是线性可分的
1 | 方法: |
准确率显著高于随机(0.5):
- 多数数据集达到 0.65-0.80 的准确率
- 表明不确定性确实存在于隐藏状态中
2. 多种不确定性,而非统一表示
关键发现:不同数据集的不确定性向量几乎正交!
| 现象 | 说明 |
|---|---|
| 数据集特异性 | 在数据集D₁上训练的向量在D₁上表现好,在其他数据集上接近随机 |
| 向量正交性 | 不同数据集的向量cosine相似度接近0 |
| 主题相似性 | 数学类数据集(GSM8K, ASDiv, SVAMP)的向量可以跨数据集迁移 |

Figure 2: Llama-3.1-8B层26的不确定性向量跨数据集评估。对角线表现好,非对角线接近随机。
3. 中间层最有效
1 | 层位性能曲线: |
- 层 L/2 到 3L/4 表现最佳(L = 总层数)
- 最后几层性能下降,表明模型对自己输出"过度自信"
4. 模型规模不改善不确定性捕获
反直觉发现:
- Llama-3.2-3B 和 Llama-3.1-8B 准确率相近
- Llama-3.2-1B 仅低约1.1个百分点
- Scaling alone is insufficient
5. 训练策略比规模更重要
| 训练方法 | 效果 |
|---|---|
| Instruction-Tuning | 显著提升准确性;最优层提前出现 |
| [IDK]-Tuning | 同样提升;改善早期层的精确度 |
与之前发现的整合
与Judge校准论文的关系
| 维度 | Calibrating LLM Judges | Pretrained LLMs Learn |
|---|---|---|
| 方法 | Brier Score训练Probe | Logistic Regression |
| 任务 | Judge判断校准 | 模型生成正确性预测 |
| 最佳层位 | 中间层 | 中间层 |
| 核心发现 | Probe优于Verbalized | 多种不确定性共存 |
一致性:两篇论文都发现中间层最有效,不确定性可通过线性探针提取。
与欺骗检测的关系
1 | 欺骗能力 > 检测能力(The Traitors发现) |
与约束可执行化框架的关系
1 | 约束可执行化链条: |
核心洞察:不确定性的多重性
这篇论文最重要的发现是:LLM不是学习了一个统一的"不确定性"概念,而是学习了多种类型的不确定性。
1 | 不确定性类型示例: |
为什么这很重要?
- 解释了幻觉的来源:如果模型有多个不一致的不确定性表示,可能导致输出不可靠
- 解释了为什么Probe需要标记数据:因为不同任务的不确定性表示不同
- 暗示了统一的困难:Instruction-tuning和[IDK]-tuning尝试统一,但本质上是"强迫"模型使用同一表示
批判性反思
局限性
- 正确性 ≠ 不确定性:论文用"生成正确性"作为不确定性的代理,但这可能不完全等价
- 线性假设:只探索了线性探针,可能存在更复杂的非线性结构
- 数据集有限:16个数据集可能无法覆盖所有不确定性类型
开放问题
- 不确定性向量的语义:这些向量具体代表什么?
- 跨模型迁移:一个模型的不确定性向量能否用于另一个模型?
- 统一 vs 多样:多样性是特性还是缺陷?
对Judge元验证的启示
核心问题重新表述:
原问题:Probe如何校准Judge的不确定性?
新理解:Probe学到的是数据集特定的不确定性表示,而非通用的不确定性概念。
实践意义:
- Probe训练需要多样化数据:如果只在一个领域训练,可能无法泛化
- 统一Probe的权衡:统一可能牺牲精度,但提高泛化
- 动态更新可能必要:新领域需要新的不确定性向量
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论