CAR表达性测试：从实验设计到关键洞察

问题

CAR的概念原子能否表达不确定性的多样性？这个问题比"CAR能否跨模型迁移不确定性电路"更根本。

理论基础

三层矛盾

层面	证据	发现
电路层面	SCIURus [ref]	36/38案例支持共享电路，相关系数0.87
表示层面	不确定性多重性论文 [ref]	不同数据集向量几乎正交
概念层面	CAR假设 [ref]	"Epistemic Uncertainty"统一概念原子

核心问题：统一的概念原子能否表达数据集特异的表示？

CAR概念原子的计算方式

1	概念原子 a_i = μ(P_concept) - μ(P_neutral)

例如，"Epistemic Uncertainty"概念原子通过对比：

P_concept：“我不确定…”、“这个答案可能是错的…”
P_neutral：中性表达

关键区分：

CAR概念原子：捕捉"关于不确定性的语言表达"
不确定性向量（多重性论文）：预训练涌现的内部表示

实验设计

实验1：CAR表达性测试

目的：测试CAR对不同类型不确定性的表达能力

步骤：

1. 在Donor模型上，分别用多个数据集训练不确定性Probe
   ├── 数学数据集（GSM8K）→ r_math
   ├── 事实数据集（PopQA）→ r_fact
   └── 常识数据集（CommonsenseQA）→ r_common

2. 对每个不确定性方向进行CAR分解
   w = (A^T A + αI)^{-1} A^T r

3. 分析w的分布
   ├── w_math中，哪些概念原子有高权重？
   ├── w_fact中，哪些概念原子有高权重？
   └── w_math和w_fact的差异有多大？

判断标准：

如果w分布差异很大 → CAR可以区分不同类型
如果w分布相似 → CAR无法区分，概念错位

实验2：跨模型重构测试

目的：验证CAR重构的不确定性方向是否有效

步骤：

1. 用w重构Target不确定性方向
   r̃_T = A_T w

2. 在Target模型上测试Probe效果
   ├── 同数据集迁移：用GSM8K的w重构，在GSM8K上测试
   └── 跨数据集迁移：用GSM8K的w重构，在PopQA上测试

判断标准：

同数据集迁移效果好，跨数据集迁移差 → 有损聚合
两者都差 → 概念错位
两者都好 → 概念原子足够

三种可能情形

情形1：有损聚合

CAR的"Epistemic Uncertainty"概念原子是一个"聚合"：

数学不确定性、事实不确定性都投影到这个原子
但投影是"有损"的，丢失了类型特异性

验证信号：w分布差异大，但跨数据集迁移效果差

情形2：概念错位

CAR的概念原子与模型内部的不确定性表示不对应：

"Epistemic Uncertainty"概念原子 ≠ 数学不确定性
CAR分解可能失败或效果很差

验证信号：重构误差大，Probe效果接近随机

情形3：概念原子足够

CAR的20个概念原子足以表达不确定性多样性：

“Epistemic Uncertainty” + “Math” + “Logic” 等概念原子的组合
可以表达不同类型的不确定性

验证信号：w分布差异大，跨数据集迁移效果好

与拒绝电路的本质差异

维度	拒绝电路	不确定性电路
来源	对齐训练	预训练涌现
机制	被"教会"	被"发现"
统一性	相对统一（同一对齐目标）	多样（不同任务涌现不同表示）
CAR适配	高（概念原子可以捕捉对齐目标）	未知（概念原子能否捕捉涌现表示？）

关键洞察

概念原子的边界

CAR论文的成功在于：拒绝电路是对齐训练的结果，对齐目标是"拒绝某些类型的请求"。CAR的概念原子（如"Safety Flagging", “Deception”）与对齐目标直接对应。

但不确定性电路是预训练涌现的，不同类型的任务（数学、事实、常识）会涌现不同的不确定性表示。CAR的概念原子是人工定义的，可能与预训练涌现的表示不完全对应。

为什么实验重要

这不是"方法不够好"的问题，而是"概念是否对应"的问题。

如果概念错位（情形2），改进方法无法解决问题——需要重新设计概念原子。

如果有损聚合（情形1），可以通过扩展CAR或设计数据集特定的"语义食谱"来解决。

如果概念原子足够（情形3），跨模型迁移应该是可行的。

批判性反思

假设的风险

实验预设了：

不确定性可以用线性探针捕捉（多重性论文支持）
CAR可以分解不确定性方向（需要验证）
w的语义有意义（理论假设）

任何一个假设失败，实验结论都不可靠。

下一步

实现实验代码
分析w分布
根据结果判断情形

关键引用：