摘要

LLM 的不确定性表示存在一个看似矛盾的双重性:电路层面共享——不确定性与问答在同一组件发生,是问答过程的"自省";表示层面数据集特异——不同数据集的不确定性向量几乎正交。本文整合多篇论文的实证发现,揭示这一双重性的机制及其对实践的意义。

引言:不确定性是什么?

不确定性量化是 LLM 安全部署的核心问题之一。模型能否"知道自己不知道"?

传统直觉认为不确定性是某种统一的认知状态——模型要么"知道",要么"不知道"。但最新研究发现了一个更复杂的图景:LLM 学习了多种类型的不确定性,而非单一的统一表示。

发现一:不确定性是线性可分的

实验方法

多篇论文使用**线性探针(Linear Probe)**提取 LLM 内部的不确定性表示:

1
2
3
4
方法:
1. 收集模型在问题上的中间层隐藏状态
2. 训练线性分类器预测模型生成是否正确
3. 分析探针的准确率和学到的方向向量

关键结果

发现 论文 数据
准确率显著高于随机 Pretrained LLMs Learn Multiple Types of Uncertainty [ref] 多数数据集达 0.65-0.80
中间层最有效 Calibrating LLM Judges [ref] 层 L/2 到 3L/4 最佳
Instruction-tuning 提升效果 两篇论文均发现 最优层提前出现

核心洞察:不确定性确实存在于隐藏状态中,可以通过线性探针提取。

发现二:不确定性是多种类型的

数据集特异性

Pretrained LLMs Learn Multiple Types of Uncertainty 论文 [ref] 发现了一个关键现象:

不同数据集的不确定性向量几乎正交!

现象 说明
数据集特异性 在数据集 D₁ 上训练的向量在 D₁ 上表现好,在其他数据集上接近随机
向量正交性 不同数据集的向量 cosine 相似度接近 0
主题相似性 数学类数据集(GSM8K, ASDiv, SVAMP)的向量可以跨数据集迁移

Cross-dataset evaluation

图:Llama-3.1-8B 层 26 的不确定性向量跨数据集评估。对角线表现好,非对角线接近随机 [ref]

不确定性类型分类

1
2
3
4
5
不确定性类型示例:
├── 数学不确定性(GSM8K, SVAMP, ASDiv)
├── 事实不确定性(PopQA, TriviaQA)
├── 常识不确定性(CommonsenseQA, StrategyQA)
└── 代码不确定性(HumanEval-X, MBPP)

核心洞察:LLM 不是学习了一个统一的"不确定性"概念,而是学习了多种类型的不确定性。

发现三:不确定性与问答共享电路

共享电路假说

SCIURus 论文 [ref] 提出了共享电路假说

不确定性量化不是独立的过程,而是问答过程的"自省"。

验证方法

方法 设计 发现
因果追踪 恢复特定组件的激活,观察对模型准确率和探针输出的影响 36/38 案例支持共享电路(p < 0.05)
零消融 逐层消融,测量准确率和探针输出的变化 两者高度正相关
COAR 随机子集消融 + 线性回归 w_m 和 w_p 的相关性高于随机

因果追踪结果

图:因果追踪代表性结果。恢复特定层对模型准确率和探针输出的影响高度相关,支持共享电路假说 [ref]

核心洞察:模型的置信度表示主要来自"不确定性内省"——对问答过程的自省,而非单独的不确定性推理。

双重性:如何理解?

看似矛盾

两个发现似乎矛盾:

  • 电路层面共享:不确定性和问答在相同组件发生
  • 表示层面特异:不同数据集的不确定性向量几乎正交

整合模型

实际上,两者是不同层面的现象:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
                    共享电路
┌──────────────┐
│ 中间层 │
│ (L/2~3L/4) │
└──────┬───────┘

┌─────────────────┼─────────────────┐
▼ ▼ ▼
┌───────────┐ ┌───────────┐ ┌───────────┐
│ 数学不确定 │ │ 事实不确定 │ │ 常识不确定 │
│ 性方向 │ │ 性方向 │ │ 性方向 │
└───────────┘ └───────────┘ └───────────┘
│ │ │
GSM8K, SVAMP PopQA, CommonsenseQA,
ASDiv TriviaQA StrategyQA

类比

  • 共享电路 = 大脑的同一个区域(中间层 MLP)
  • 数据集特异性 = 该区域内不同的神经元群体(不同的激活方向)

核心洞察:不确定性量化是在共享电路中发生的,但不同类型的任务激活不同的方向。

实践意义

1. Probe 训练需要数据集匹配

如果 Judge 的任务领域与训练数据不匹配,Probe 可能失效。

实践建议:Probe 训练数据应该覆盖目标任务的领域分布。

2. 跨领域泛化困难

因为不确定性方向是数据集特异的,Probe 难以跨领域泛化。

实践建议:新领域需要重新收集训练数据,或使用 Instruction-tuning 尝试统一方向。

3. Judge 的元验证

Calibrating LLM Judges 论文 [ref] 发现,Probe 可以校准 Judge 的不确定性:

方法 Kuiper 改进 计算成本
Verbalized 基线
Consistency 混合结果 10×
Probe 70-92%改进

但局限:Probe 只告诉 Judge “什么时候不确定”,不能告诉 Judge “正确答案是什么”。

Reliability Diagrams

图:Probe 改善校准,Verbalized 方法过度自信 [ref]

推测性假说:跨模型迁移

CAR(概念原子注册表)

CAR 论文 [ref] 展示了拒绝电路可以通过"语义食谱"跨模型迁移。CAR 包含 20 个概念原子,其中包括"Epistemic Uncertainty"和"Confidence"。

关键问题

不确定性电路能否通过 CAR 跨模型迁移?

维度 拒绝电路 不确定性电路 挑战
来源 对齐训练 预训练涌现 机制可能不同
数据集特异性 需要处理多种不确定性类型

批判性判断:这是推测性假说,需要实验验证。关键问题是 CAR 的概念原子能否表达不确定性的多样性 [ref]

批判性反思

局限性

  1. 正确性 ≠ 不确定性:论文用"生成正确性"作为不确定性的代理,但这可能不完全等价
  2. 线性假设:只探索了线性探针,可能存在更复杂的非线性结构
  3. 任务范围:SCIURus 主要测试知识回忆任务,数学等非回忆任务可能不同

开放问题

  1. 不确定性向量的语义:这些向量具体代表什么?
  2. 语义不确定性:关于表达多义性的不确定性与事实不确定性是否共享电路?
  3. 统一方向的可能性:如何训练统一的、跨数据集的不确定性方向?

结论

LLM 的不确定性表示存在双重性:

  • 电路层面:不确定性与问答共享电路,是问答过程的"自省"
  • 表示层面:不同数据集的不确定性向量几乎正交,数据集特异性

这一双重性揭示了 LLM 不确定性表示的本质:不是统一的"知道自己不知道"机制,而是依赖于具体任务上下文的多样性表示。

实践意义:Probe 校准需要数据集特定的训练,跨领域泛化困难,最终仍需人类作为最终权威。


参考文献

  1. Pretrained LLMs Learn Multiple Types of Uncertainty [ref]
  2. SCIURus: Shared Circuits for Interpretable Uncertainty Representations [ref]
  3. Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation [ref]
  4. Universal Refusal Circuits Across LLMs [ref]

完成时间: 2026-03-06 03:45