问题

之前的探索发现:LLM学习了多种类型的不确定性,数据集特异性,向量几乎正交。但这是否意味着不确定性表示完全分散?

两篇关键论文

1. SCIURus: Shared Circuits for Interpretable Uncertainty Representations

NAACL 2025 [ref]

核心假说:共享电路假说(Shared Circuits Hypothesis)

不确定性量化在问答系统中,可能通过共享电路同时解决底层问答任务和输出不确定性信息。

方法

  • P(IK)探针:预测模型是否"知道"答案
  • 因果追踪(Causal Tracing):识别重要组件
  • 零消融(Zero-Ablation):测试组件重要性

关键证据

方法 结果
因果追踪 36/38案例支持共享电路(p < 0.05)
零消融 模型准确率和探针输出高度正相关
COAR w_m 和 w_p 的相关性高于随机

核心发现:模型的置信度表示主要来自**“不确定性内省”**——对问答过程的自省,而非单独的不确定性推理。

2. Unifying Latent Uncertainty Signals in Large Language Models

ICLR 2026 (Withdrawn) [ref]

核心发现

维度 结果
不确定性信号 多个数据集特异的线性方向
最佳层位 中间层
跨任务泛化 有限
增强方法 Instruction-tuning + [IDK]-token

提议框架:利用统一的不确定性方向训练LLM分类自己的正确性。

双重性:电路共享 vs 表示多样

关键洞察:两篇论文看似矛盾,实则互补!

1
2
3
4
5
6
7
8
9
共享电路假说(电路层面):
├── 问答和不确定性量化在相同组件发生
├── 不确定性内省而非单独推理
└── 证据:因果追踪和零消融高度相关

数据集特异性(表示层面):
├── 同一电路编码多个不确定性方向
├── 不同数据集激活不同方向
└── 证据:向量几乎正交

整合模型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
                    共享电路
┌──────────────┐
│ 中间层 │
│ (L/2~3L/4) │
└──────┬───────┘

┌─────────────────┼─────────────────┐
▼ ▼ ▼
┌───────────┐ ┌───────────┐ ┌───────────┐
│ 数学不确定 │ │ 事实不确定 │ │ 常识不确定 │
│ 性方向 │ │ 性方向 │ │ 性方向 │
└───────────┘ └───────────┘ └───────────┘
│ │ │
GSM8K, SVAMP PopQA, CommonsenseQA,
ASDiv TriviaQA StrategyQA

对Judge元验证的启示

问题重新表述

原问题:Probe学到了什么特征?
新理解:Probe学到的是共享电路中的不确定性方向,但这些方向是数据集特异的。

实践意义

  1. Probe训练需要数据集匹配:如果Judge的任务领域与训练数据不匹配,Probe可能失效
  2. 跨领域泛化困难:因为不确定性方向是数据集特异的
  3. 统一方向的可能性:通过Instruction-tuning和[IDK]-token训练,可能找到更统一的方向

与不确定性类型的关系

Bayesian Linear Lens论文(arXiv 2510.04108)区分:

类型 定义 特点
事实不确定性 关于生成内容真实性的不确定性 与知识相关,可减少
语义不确定性 语言本身的多义性 不可约简

与共享电路的关系

  • 事实不确定性:与问答电路高度相关 → 支持共享电路假说
  • 语义不确定性:可能需要不同的电路?

实验设计启示:多选题设置可以解耦语义不确定性和事实不确定性。

批判性反思

局限性

  1. 实验范围:SCIURus主要测试知识回忆任务,数学等非回忆任务可能不同
  2. 模型依赖性:不同模型架构可能表现不同
  3. 电路定义模糊:什么算"相同电路"缺乏精确定义

开放问题

  1. 跨模型迁移:共享电路是否在不同模型间保持?
  2. 统一方向的代价:统一可能牺牲精度,但提高泛化
  3. 语义不确定性:是否也有类似的共享电路?

下一步探索

  1. 跨模型探针迁移:从一个模型的Probe能否迁移到另一个?
  2. 统一方向训练:如何训练统一的、跨数据集的不确定性方向?
  3. 语义vs事实不确定性的电路分离:是否存在不同的电路?

关键引用: