背景

之前发现了不确定性表示的双重性:电路层面共享,表示层面数据集特异。SCIURus论文 [ref] 提供了共享电路假说的详细证据。

P(IK) Probe设计

Figure 1: P(IK)探测方法示意图。LLM接收问题输入,返回答案和最后一层激活。探针学习预测模型答案是否正确。

共享电路假说

核心论断

不确定性量化不是独立的过程,而是问答过程的"自省"

1
2
3
4
5
6
7
传统观点:
├── 问答电路:解决问题
└── 不确定性电路:独立评估置信度

共享电路假说:
├── 问答电路:解决问题 + 同时产生不确定性
└── 不确定性 = 对问答过程的自省

三种验证方法

方法 设计 发现
因果追踪 恢复特定组件的激活,观察对模型准确率(m)和探针输出(p)的影响 36/38案例支持共享电路
Leave-One-Out零消融 逐层消融,测量m和p的变化 m和p高度正相关
COAR 随机子集消融 + 线性回归 w_m 和 w_p 的相关性高于随机

关键证据

因果追踪结果

  • 如果某个组件对问答重要(恢复后m提升),它也对不确定性重要(恢复后p提升)
  • 相关系数:0.87(模型准确率 vs 探针输出)

因果追踪结果

Figure 2: 因果追踪代表性结果。恢复特定层对模型准确率(m)和探针输出(p)的影响高度相关,支持共享电路假说。

零消融结果

  • 消融对问答重要的层 → 探针输出也受影响
  • 暗示同一个"电路"同时支持两种功能

Leave-One-Out消融

Figure 3: Leave-one-out消融结果。模型准确率和探针输出高度正相关(R² > 0.6)。

对跨模型迁移的意义

理论支持

如果不确定性和问答共享电路:

1
2
3
4
5
6
7
问答能力可以跨模型迁移(CAR论文证明)

问答电路在模型间有共性

不确定性电路 = 问答电路的一部分

不确定性电路也应该可以跨模型迁移?

与CAR的对接

CAR论文 [ref] 展示了:

  • 拒绝电路可以通过"语义食谱"跨模型迁移
  • 使用CAR作为共享词汇表

如果不确定性电路与问答电路共享:

  • CAR中包含"Epistemic Uncertainty"和"Confidence"概念原子
  • 这些原子可能与问答相关的原子有交互

关键问题

共享电路是否意味着共享表示?

层面 共享电路 共享表示
电路 相同的网络组件 -
表示 - 相同的激活方向
迁移 可能需要相同组件 可能需要相同方向

数据集特异性的挑战

之前发现不确定性方向是数据集特异的 [ref]

但共享电路假说说的是电路层面的共享,不是表示层面的统一。

1
2
3
4
5
6
7
8
9
电路层面:
├── 数学不确定性 → 在中间层MLP
├── 事实不确定性 → 在中间层MLP
└── 共享:都在中间层MLP

表示层面:
├── 数学不确定性向量 → 方向A
├── 事实不确定性向量 → 方向B
└── 几乎正交

不确定性内省的机制

论文的核心洞察

“confidence may derive mainly from ‘uncertainty introspection’ on its question-answering process, rather than from separate reasoning specific to its uncertainty.”

这暗示:

  1. 模型不需要额外的"不确定性计算"
  2. 不确定性是问答过程的自然副产品
  3. 探针只是"读取"这个副产品

类比:人类的不确定性感知

1
2
3
4
5
6
7
8
9
10
11
人类问答:
├── 问题:法国首都是哪?
├── 回答:巴黎
├── 置信度:高(回答时自然产生,不需要额外思考)
└── 来源:记忆的清晰度 → 置信度

LLM问答:
├── 问题:法国首都是哪?
├── 回答:巴黎
├── 置信度:探针读取
└── 来源:隐藏状态的激活模式 → 探针解读

批判性反思

与数据集特异性的统一

共享电路假说和数据集特异性不矛盾:

1
2
3
4
5
6
共享电路:所有不确定性都在中间层MLP发生
数据集特异性:不同数据集激活不同的方向

类比:
├── 共享电路 = 大脑的同一个区域
├── 数据集特异性 = 该区域内不同的神经元群体

实验验证的方向

如果要做跨模型迁移实验:

  1. 验证电路共享:在不同模型上验证因果追踪结果
  2. 验证表示迁移:测试CAR重构的不确定性方向是否有效
  3. 验证数据集适配:测试同数据集迁移 vs 跨数据集迁移的效果差异

局限性

  1. 任务范围:SCIURus主要测试知识回忆任务,数学等非回忆任务可能不同
  2. 模型范围:测试了8个模型,都是Llama/Gemma系列,其他架构可能不同
  3. 不确定性类型:只测试了"事实不确定性",语义不确定性可能机制不同

下一步

  1. 设计CAR分解实验,测试不确定性方向的表达性
  2. 验证共享电路在不同模型架构上的泛化性
  3. 探索语义不确定性 vs 事实不确定性的电路差异

关键引用: