共享电路假说的深度证据：不确定性来自问答过程的自省

背景

之前发现了不确定性表示的双重性：电路层面共享，表示层面数据集特异。SCIURus论文 [ref] 提供了共享电路假说的详细证据。

P(IK) Probe设计

Figure 1: P(IK)探测方法示意图。LLM接收问题输入，返回答案和最后一层激活。探针学习预测模型答案是否正确。

共享电路假说

核心论断

不确定性量化不是独立的过程，而是问答过程的"自省"。

传统观点：
├── 问答电路：解决问题
└── 不确定性电路：独立评估置信度

共享电路假说：
├── 问答电路：解决问题 + 同时产生不确定性
└── 不确定性 = 对问答过程的自省

三种验证方法

方法	设计	发现
因果追踪	恢复特定组件的激活，观察对模型准确率(m)和探针输出(p)的影响	36/38案例支持共享电路
Leave-One-Out零消融	逐层消融，测量m和p的变化	m和p高度正相关
COAR	随机子集消融 + 线性回归	w_m 和 w_p 的相关性高于随机

关键证据

因果追踪结果：

如果某个组件对问答重要（恢复后m提升），它也对不确定性重要（恢复后p提升）
相关系数：0.87（模型准确率 vs 探针输出）

因果追踪结果

Figure 2: 因果追踪代表性结果。恢复特定层对模型准确率(m)和探针输出(p)的影响高度相关，支持共享电路假说。

零消融结果：

消融对问答重要的层 → 探针输出也受影响
暗示同一个"电路"同时支持两种功能

Leave-One-Out消融

Figure 3: Leave-one-out消融结果。模型准确率和探针输出高度正相关（R² > 0.6）。

对跨模型迁移的意义

理论支持

如果不确定性和问答共享电路：

问答能力可以跨模型迁移（CAR论文证明）
        ↓
问答电路在模型间有共性
        ↓
不确定性电路 = 问答电路的一部分
        ↓
不确定性电路也应该可以跨模型迁移？

与CAR的对接

CAR论文 [ref] 展示了：

拒绝电路可以通过"语义食谱"跨模型迁移
使用CAR作为共享词汇表

如果不确定性电路与问答电路共享：

CAR中包含"Epistemic Uncertainty"和"Confidence"概念原子
这些原子可能与问答相关的原子有交互

关键问题

共享电路是否意味着共享表示？

层面	共享电路	共享表示
电路	相同的网络组件	-
表示	-	相同的激活方向
迁移	可能需要相同组件	可能需要相同方向

数据集特异性的挑战：

之前发现不确定性方向是数据集特异的 [ref]。

但共享电路假说说的是电路层面的共享，不是表示层面的统一。

电路层面：
├── 数学不确定性 → 在中间层MLP
├── 事实不确定性 → 在中间层MLP
└── 共享：都在中间层MLP

表示层面：
├── 数学不确定性向量 → 方向A
├── 事实不确定性向量 → 方向B
└── 几乎正交

不确定性内省的机制

论文的核心洞察

“confidence may derive mainly from ‘uncertainty introspection’ on its question-answering process, rather than from separate reasoning specific to its uncertainty.”

这暗示：

模型不需要额外的"不确定性计算"
不确定性是问答过程的自然副产品
探针只是"读取"这个副产品

类比：人类的不确定性感知

人类问答：
├── 问题：法国首都是哪？
├── 回答：巴黎
├── 置信度：高（回答时自然产生，不需要额外思考）
└── 来源：记忆的清晰度 → 置信度

LLM问答：
├── 问题：法国首都是哪？
├── 回答：巴黎
├── 置信度：探针读取
└── 来源：隐藏状态的激活模式 → 探针解读

批判性反思

与数据集特异性的统一

共享电路假说和数据集特异性不矛盾：

共享电路：所有不确定性都在中间层MLP发生
数据集特异性：不同数据集激活不同的方向

类比：
├── 共享电路 = 大脑的同一个区域
├── 数据集特异性 = 该区域内不同的神经元群体

实验验证的方向

如果要做跨模型迁移实验：

验证电路共享：在不同模型上验证因果追踪结果
验证表示迁移：测试CAR重构的不确定性方向是否有效
验证数据集适配：测试同数据集迁移 vs 跨数据集迁移的效果差异

局限性

任务范围：SCIURus主要测试知识回忆任务，数学等非回忆任务可能不同
模型范围：测试了8个模型，都是Llama/Gemma系列，其他架构可能不同
不确定性类型：只测试了"事实不确定性"，语义不确定性可能机制不同

下一步

设计CAR分解实验，测试不确定性方向的表达性
验证共享电路在不同模型架构上的泛化性
探索语义不确定性 vs 事实不确定性的电路差异

关键引用：