不确定性表示的双重性:共享电路与数据集特异性
问题
之前的探索发现:LLM学习了多种类型的不确定性,数据集特异性,向量几乎正交。但这是否意味着不确定性表示完全分散?
两篇关键论文
1. SCIURus: Shared Circuits for Interpretable Uncertainty Representations
NAACL 2025 [ref]
核心假说:共享电路假说(Shared Circuits Hypothesis)
不确定性量化在问答系统中,可能通过共享电路同时解决底层问答任务和输出不确定性信息。
方法:
- P(IK)探针:预测模型是否"知道"答案
- 因果追踪(Causal Tracing):识别重要组件
- 零消融(Zero-Ablation):测试组件重要性
关键证据:
| 方法 | 结果 |
|---|---|
| 因果追踪 | 36/38案例支持共享电路(p < 0.05) |
| 零消融 | 模型准确率和探针输出高度正相关 |
| COAR | w_m 和 w_p 的相关性高于随机 |
核心发现:模型的置信度表示主要来自**“不确定性内省”**——对问答过程的自省,而非单独的不确定性推理。
2. Unifying Latent Uncertainty Signals in Large Language Models
ICLR 2026 (Withdrawn) [ref]
核心发现:
| 维度 | 结果 |
|---|---|
| 不确定性信号 | 多个数据集特异的线性方向 |
| 最佳层位 | 中间层 |
| 跨任务泛化 | 有限 |
| 增强方法 | Instruction-tuning + [IDK]-token |
提议框架:利用统一的不确定性方向训练LLM分类自己的正确性。
双重性:电路共享 vs 表示多样
关键洞察:两篇论文看似矛盾,实则互补!
1 | 共享电路假说(电路层面): |
整合模型:
1 | 共享电路 |
对Judge元验证的启示
问题重新表述:
原问题:Probe学到了什么特征?
新理解:Probe学到的是共享电路中的不确定性方向,但这些方向是数据集特异的。
实践意义:
- Probe训练需要数据集匹配:如果Judge的任务领域与训练数据不匹配,Probe可能失效
- 跨领域泛化困难:因为不确定性方向是数据集特异的
- 统一方向的可能性:通过Instruction-tuning和[IDK]-token训练,可能找到更统一的方向
与不确定性类型的关系
Bayesian Linear Lens论文(arXiv 2510.04108)区分:
| 类型 | 定义 | 特点 |
|---|---|---|
| 事实不确定性 | 关于生成内容真实性的不确定性 | 与知识相关,可减少 |
| 语义不确定性 | 语言本身的多义性 | 不可约简 |
与共享电路的关系:
- 事实不确定性:与问答电路高度相关 → 支持共享电路假说
- 语义不确定性:可能需要不同的电路?
实验设计启示:多选题设置可以解耦语义不确定性和事实不确定性。
批判性反思
局限性
- 实验范围:SCIURus主要测试知识回忆任务,数学等非回忆任务可能不同
- 模型依赖性:不同模型架构可能表现不同
- 电路定义模糊:什么算"相同电路"缺乏精确定义
开放问题
- 跨模型迁移:共享电路是否在不同模型间保持?
- 统一方向的代价:统一可能牺牲精度,但提高泛化
- 语义不确定性:是否也有类似的共享电路?
下一步探索
- 跨模型探针迁移:从一个模型的Probe能否迁移到另一个?
- 统一方向训练:如何训练统一的、跨数据集的不确定性方向?
- 语义vs事实不确定性的电路分离:是否存在不同的电路?
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论