不确定性表示的双重性：共享电路与数据集特异性

问题

之前的探索发现：LLM学习了多种类型的不确定性，数据集特异性，向量几乎正交。但这是否意味着不确定性表示完全分散？

两篇关键论文

1. SCIURus: Shared Circuits for Interpretable Uncertainty Representations

NAACL 2025 [ref]

核心假说：共享电路假说（Shared Circuits Hypothesis）

不确定性量化在问答系统中，可能通过共享电路同时解决底层问答任务和输出不确定性信息。

方法：

P(IK)探针：预测模型是否"知道"答案
因果追踪（Causal Tracing）：识别重要组件
零消融（Zero-Ablation）：测试组件重要性

关键证据：

方法	结果
因果追踪	36/38案例支持共享电路（p < 0.05）
零消融	模型准确率和探针输出高度正相关
COAR	w_m 和 w_p 的相关性高于随机

核心发现：模型的置信度表示主要来自**“不确定性内省”**——对问答过程的自省，而非单独的不确定性推理。

2. Unifying Latent Uncertainty Signals in Large Language Models

ICLR 2026 (Withdrawn) [ref]

核心发现：

维度	结果
不确定性信号	多个数据集特异的线性方向
最佳层位	中间层
跨任务泛化	有限
增强方法	Instruction-tuning + [IDK]-token

提议框架：利用统一的不确定性方向训练LLM分类自己的正确性。

双重性：电路共享 vs 表示多样

关键洞察：两篇论文看似矛盾，实则互补！

共享电路假说（电路层面）：
├── 问答和不确定性量化在相同组件发生
├── 不确定性内省而非单独推理
└── 证据：因果追踪和零消融高度相关

数据集特异性（表示层面）：
├── 同一电路编码多个不确定性方向
├── 不同数据集激活不同方向
└── 证据：向量几乎正交

整合模型：

                    共享电路
                 ┌──────────────┐
                 │   中间层     │
                 │  (L/2~3L/4)  │
                 └──────┬───────┘
                        │
      ┌─────────────────┼─────────────────┐
      ▼                 ▼                 ▼
┌───────────┐     ┌───────────┐     ┌───────────┐
│ 数学不确定 │     │ 事实不确定 │     │ 常识不确定 │
│ 性方向    │     │ 性方向    │     │ 性方向    │
└───────────┘     └───────────┘     └───────────┘
     │                 │                 │
GSM8K, SVAMP      PopQA,           CommonsenseQA,
ASDiv             TriviaQA          StrategyQA

对Judge元验证的启示

问题重新表述：

原问题：Probe学到了什么特征？
新理解：Probe学到的是共享电路中的不确定性方向，但这些方向是数据集特异的。

实践意义：

Probe训练需要数据集匹配：如果Judge的任务领域与训练数据不匹配，Probe可能失效
跨领域泛化困难：因为不确定性方向是数据集特异的
统一方向的可能性：通过Instruction-tuning和[IDK]-token训练，可能找到更统一的方向

与不确定性类型的关系

Bayesian Linear Lens论文（arXiv 2510.04108）区分：

类型	定义	特点
事实不确定性	关于生成内容真实性的不确定性	与知识相关，可减少
语义不确定性	语言本身的多义性	不可约简

与共享电路的关系：

事实不确定性：与问答电路高度相关 → 支持共享电路假说
语义不确定性：可能需要不同的电路？

实验设计启示：多选题设置可以解耦语义不确定性和事实不确定性。

批判性反思

局限性

实验范围：SCIURus主要测试知识回忆任务，数学等非回忆任务可能不同
模型依赖性：不同模型架构可能表现不同
电路定义模糊：什么算"相同电路"缺乏精确定义

开放问题

跨模型迁移：共享电路是否在不同模型间保持？
统一方向的代价：统一可能牺牲精度，但提高泛化
语义不确定性：是否也有类似的共享电路？

下一步探索

跨模型探针迁移：从一个模型的Probe能否迁移到另一个？
统一方向训练：如何训练统一的、跨数据集的不确定性方向？
语义vs事实不确定性的电路分离：是否存在不同的电路？

关键引用：