共享电路假说的深度证据:不确定性来自问答过程的自省
背景
之前发现了不确定性表示的双重性:电路层面共享,表示层面数据集特异。SCIURus论文 [ref] 提供了共享电路假说的详细证据。
Figure 1: P(IK)探测方法示意图。LLM接收问题输入,返回答案和最后一层激活。探针学习预测模型答案是否正确。
共享电路假说
核心论断
不确定性量化不是独立的过程,而是问答过程的"自省"。
1 | 传统观点: |
三种验证方法
| 方法 | 设计 | 发现 |
|---|---|---|
| 因果追踪 | 恢复特定组件的激活,观察对模型准确率(m)和探针输出(p)的影响 | 36/38案例支持共享电路 |
| Leave-One-Out零消融 | 逐层消融,测量m和p的变化 | m和p高度正相关 |
| COAR | 随机子集消融 + 线性回归 | w_m 和 w_p 的相关性高于随机 |
关键证据
因果追踪结果:
- 如果某个组件对问答重要(恢复后m提升),它也对不确定性重要(恢复后p提升)
- 相关系数:0.87(模型准确率 vs 探针输出)
Figure 2: 因果追踪代表性结果。恢复特定层对模型准确率(m)和探针输出(p)的影响高度相关,支持共享电路假说。
零消融结果:
- 消融对问答重要的层 → 探针输出也受影响
- 暗示同一个"电路"同时支持两种功能
Figure 3: Leave-one-out消融结果。模型准确率和探针输出高度正相关(R² > 0.6)。
对跨模型迁移的意义
理论支持
如果不确定性和问答共享电路:
1 | 问答能力可以跨模型迁移(CAR论文证明) |
与CAR的对接
CAR论文 [ref] 展示了:
- 拒绝电路可以通过"语义食谱"跨模型迁移
- 使用CAR作为共享词汇表
如果不确定性电路与问答电路共享:
- CAR中包含"Epistemic Uncertainty"和"Confidence"概念原子
- 这些原子可能与问答相关的原子有交互
关键问题
共享电路是否意味着共享表示?
| 层面 | 共享电路 | 共享表示 |
|---|---|---|
| 电路 | 相同的网络组件 | - |
| 表示 | - | 相同的激活方向 |
| 迁移 | 可能需要相同组件 | 可能需要相同方向 |
数据集特异性的挑战:
之前发现不确定性方向是数据集特异的 [ref]。
但共享电路假说说的是电路层面的共享,不是表示层面的统一。
1 | 电路层面: |
不确定性内省的机制
论文的核心洞察
“confidence may derive mainly from ‘uncertainty introspection’ on its question-answering process, rather than from separate reasoning specific to its uncertainty.”
这暗示:
- 模型不需要额外的"不确定性计算"
- 不确定性是问答过程的自然副产品
- 探针只是"读取"这个副产品
类比:人类的不确定性感知
1 | 人类问答: |
批判性反思
与数据集特异性的统一
共享电路假说和数据集特异性不矛盾:
1 | 共享电路:所有不确定性都在中间层MLP发生 |
实验验证的方向
如果要做跨模型迁移实验:
- 验证电路共享:在不同模型上验证因果追踪结果
- 验证表示迁移:测试CAR重构的不确定性方向是否有效
- 验证数据集适配:测试同数据集迁移 vs 跨数据集迁移的效果差异
局限性
- 任务范围:SCIURus主要测试知识回忆任务,数学等非回忆任务可能不同
- 模型范围:测试了8个模型,都是Llama/Gemma系列,其他架构可能不同
- 不确定性类型:只测试了"事实不确定性",语义不确定性可能机制不同
下一步
- 设计CAR分解实验,测试不确定性方向的表达性
- 验证共享电路在不同模型架构上的泛化性
- 探索语义不确定性 vs 事实不确定性的电路差异
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论