问题

CAR论文 [ref] 证明拒绝电路可以跨模型迁移,其核心是"语义食谱不变性"——相同的系数w可以在不同模型间迁移。CAR包含"Epistemic Uncertainty"和"Confidence"概念原子。这能否用于不确定性电路的跨模型迁移?

核心矛盾

SCIURus证据:电路层面共享

SCIURus论文 [ref] 提供36/38案例支持共享电路假说:不确定性和问答在相同组件发生,相关系数0.87。

不确定性多重性证据:表示层面特异

不确定性多重性论文 [ref] 发现:

  • 不同数据集的不确定性向量几乎正交
  • LLMs不学习统一的不确定性表示,而是编码多种不同的不确定性
  • 数学不确定性、事实不确定性、常识不确定性是不同的

CAR假设:统一概念原子

CAR使用20个概念原子,其中"Epistemic Uncertainty"和"Confidence"与不确定性直接相关。这隐含假设存在统一的"不确定性"概念。

根本问题

CAR的"Epistemic Uncertainty"概念原子是一个真实存在的统一表示,还是对多种不同不确定性的"有损聚合"?

概念原子的计算方式

1
概念原子 a_i = μ(P_concept) - μ(P_neutral)

例如,"Epistemic Uncertainty"概念原子通过对比:

  • P_concept:“我不确定…”、“这个答案可能是错的…”
  • P_neutral:中性表达

问题所在

这个计算方式捕捉的是**“关于不确定性的语言表达”,而非"模型内部的不确定性状态"**。

关键区分:

维度 CAR概念原子 不确定性向量(多重性论文)
来源 人工定义的对比提示 预训练涌现的表示
性质 语言表达层面的区分 内部计算层面的区分
统一性 假设统一 证明多样性

三种可能的情形

情形1:有损聚合

CAR的"Epistemic Uncertainty"概念原子是一个"聚合":

  • 数学不确定性、事实不确定性都投影到这个原子
  • 但投影是"有损"的,丢失了类型特异性

验证方法

  • 如果不确定性方向可以CAR分解,但w分布在不同数据集上差异很大
  • 说明CAR捕捉到了"某种不确定性",但无法区分类型

情形2:概念错位

CAR的概念原子与模型内部的不确定性表示不对应:

  • "Epistemic Uncertainty"概念原子 ≠ 数学不确定性
  • CAR分解可能失败或效果很差

验证方法

  • CAR分解的重构误差很大
  • 重构方向在Target模型上Probe效果接近随机

情形3:概念原子足够

CAR的20个概念原子足以表达不确定性多样性:

  • “Epistemic Uncertainty” + “Math” + “Logic” 等概念原子的组合
  • 可以表达不同类型的不确定性

验证方法

  • 数学不确定性的w中,"Math"原子有高权重
  • 事实不确定性的w中,"Epistemic Uncertainty"原子有高权重

关键实验设计

实验1:CAR表达性测试

1
2
3
4
5
6
7
8
9
10
11
12
13
步骤:
1. 在Donor模型上,分别用多个数据集训练不确定性Probe
├── 数学数据集(GSM8K)→ r_math
├── 事实数据集(PopQA)→ r_fact
└── 常识数据集(CommonsenseQA)→ r_common

2. 对每个不确定性方向进行CAR分解
w = (A^T A + αI)^{-1} A^T r

3. 分析w的分布
├── w_math中,哪些概念原子有高权重?
├── w_fact中,哪些概念原子有高权重?
└── w_math和w_fact的差异有多大?

判断标准

  • 如果w分布差异很大 → 情形1或3(CAR可以区分不同类型)
  • 如果w分布相似 → 情形2(CAR无法区分,概念错位)

实验2:跨模型重构测试

1
2
3
4
5
6
7
步骤:
1. 用w重构Target不确定性方向
r̃_T = A_T w

2. 在Target模型上测试Probe效果
├── 同数据集迁移:用GSM8K的w重构,在GSM8K上测试
└── 跨数据集迁移:用GSM8K的w重构,在PopQA上测试

判断标准

  • 同数据集迁移效果好,跨数据集迁移差 → 情形1
  • 两者都差 → 情形2
  • 两者都好 → 情形3

与拒绝电路的本质差异

维度 拒绝电路 不确定性电路
来源 对齐训练 预训练涌现
机制 被"教会" 被"发现"
统一性 相对统一(同一对齐目标) 多样(不同任务涌现不同表示)
CAR适配 高(概念原子可以捕捉对齐目标) 未知(概念原子能否捕捉涌现表示?)

批判性反思

为什么CAR对拒绝电路有效?

拒绝电路是对齐训练的结果,对齐目标是"拒绝某些类型的请求"。CAR的概念原子(如"Safety Flagging", “Deception”)与对齐目标直接对应,因此语义食谱可以跨模型迁移。

为什么不确定性电路可能不同?

不确定性是预训练涌现的,不同类型的任务(数学、事实、常识)会涌现不同的不确定性表示。CAR的概念原子是人工定义的,可能与预训练涌现的表示不完全对应。

关键问题重述

不是"CAR能否跨模型迁移不确定性电路",而是:

  1. CAR的概念原子能否表达不确定性的多样性?
  2. 人工定义的概念原子是否与预训练涌现的表示对应?

下一步

  1. 实现实验1,测试CAR对不同类型不确定性的表达能力
  2. 分析w分布,判断是情形1、2还是3
  3. 根据结果决定是否需要扩展CAR

关键引用: