问题

CAR的概念原子能否表达不确定性的多样性?这个问题比"CAR能否跨模型迁移不确定性电路"更根本。

理论基础

三层矛盾

层面 证据 发现
电路层面 SCIURus [ref] 36/38案例支持共享电路,相关系数0.87
表示层面 不确定性多重性论文 [ref] 不同数据集向量几乎正交
概念层面 CAR假设 [ref] "Epistemic Uncertainty"统一概念原子

核心问题:统一的概念原子能否表达数据集特异的表示?

CAR概念原子的计算方式

1
概念原子 a_i = μ(P_concept) - μ(P_neutral)

例如,"Epistemic Uncertainty"概念原子通过对比:

  • P_concept:“我不确定…”、“这个答案可能是错的…”
  • P_neutral:中性表达

关键区分

  • CAR概念原子:捕捉"关于不确定性的语言表达"
  • 不确定性向量(多重性论文):预训练涌现的内部表示

实验设计

实验1:CAR表达性测试

目的:测试CAR对不同类型不确定性的表达能力

步骤

1
2
3
4
5
6
7
8
9
10
11
12
1. 在Donor模型上,分别用多个数据集训练不确定性Probe
├── 数学数据集(GSM8K)→ r_math
├── 事实数据集(PopQA)→ r_fact
└── 常识数据集(CommonsenseQA)→ r_common

2. 对每个不确定性方向进行CAR分解
w = (A^T A + αI)^{-1} A^T r

3. 分析w的分布
├── w_math中,哪些概念原子有高权重?
├── w_fact中,哪些概念原子有高权重?
└── w_math和w_fact的差异有多大?

判断标准

  • 如果w分布差异很大 → CAR可以区分不同类型
  • 如果w分布相似 → CAR无法区分,概念错位

实验2:跨模型重构测试

目的:验证CAR重构的不确定性方向是否有效

步骤

1
2
3
4
5
6
1. 用w重构Target不确定性方向
r̃_T = A_T w

2. 在Target模型上测试Probe效果
├── 同数据集迁移:用GSM8K的w重构,在GSM8K上测试
└── 跨数据集迁移:用GSM8K的w重构,在PopQA上测试

判断标准

  • 同数据集迁移效果好,跨数据集迁移差 → 有损聚合
  • 两者都差 → 概念错位
  • 两者都好 → 概念原子足够

三种可能情形

情形1:有损聚合

CAR的"Epistemic Uncertainty"概念原子是一个"聚合":

  • 数学不确定性、事实不确定性都投影到这个原子
  • 但投影是"有损"的,丢失了类型特异性

验证信号:w分布差异大,但跨数据集迁移效果差

情形2:概念错位

CAR的概念原子与模型内部的不确定性表示不对应:

  • "Epistemic Uncertainty"概念原子 ≠ 数学不确定性
  • CAR分解可能失败或效果很差

验证信号:重构误差大,Probe效果接近随机

情形3:概念原子足够

CAR的20个概念原子足以表达不确定性多样性:

  • “Epistemic Uncertainty” + “Math” + “Logic” 等概念原子的组合
  • 可以表达不同类型的不确定性

验证信号:w分布差异大,跨数据集迁移效果好

与拒绝电路的本质差异

维度 拒绝电路 不确定性电路
来源 对齐训练 预训练涌现
机制 被"教会" 被"发现"
统一性 相对统一(同一对齐目标) 多样(不同任务涌现不同表示)
CAR适配 高(概念原子可以捕捉对齐目标) 未知(概念原子能否捕捉涌现表示?)

关键洞察

概念原子的边界

CAR论文的成功在于:拒绝电路是对齐训练的结果,对齐目标是"拒绝某些类型的请求"。CAR的概念原子(如"Safety Flagging", “Deception”)与对齐目标直接对应。

但不确定性电路是预训练涌现的,不同类型的任务(数学、事实、常识)会涌现不同的不确定性表示。CAR的概念原子是人工定义的,可能与预训练涌现的表示不完全对应。

为什么实验重要

这不是"方法不够好"的问题,而是"概念是否对应"的问题。

如果概念错位(情形2),改进方法无法解决问题——需要重新设计概念原子。

如果有损聚合(情形1),可以通过扩展CAR或设计数据集特定的"语义食谱"来解决。

如果概念原子足够(情形3),跨模型迁移应该是可行的。

批判性反思

假设的风险

实验预设了:

  1. 不确定性可以用线性探针捕捉(多重性论文支持)
  2. CAR可以分解不确定性方向(需要验证)
  3. w的语义有意义(理论假设)

任何一个假设失败,实验结论都不可靠。

下一步

  1. 实现实验代码
  2. 分析w分布
  3. 根据结果判断情形

关键引用: