问题

不确定性表示是数据集特异的,但这是否意味着完全无法跨模型迁移?拒绝电路的跨模型迁移研究提供了新的视角。

论文:Universal Refusal Circuits Across LLMs

arXiv:2601.16034v1 [ref]

核心假说:语义普适性(Semantic Universality)

拒绝电路可以通过语义食谱不变性跨模型迁移:

  • 拒绝方向 = 概念原子的稳定混合
  • 相同系数可以在目标模型中重构功能等效的拒绝方向

方法:轨迹重放(Trajectory Replay)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Donor Model                    Target Model
│ │
▼ ▼
提取拒绝方向 概念原子注册表(CAR)
│ │
▼ ▼
分解为概念原子 层对齐(DTW)
│ │
▼ ▼
"语义食谱" w ─────────→ 重构目标方向


权重SVD保护


应用干预

关键组件

组件 功能
CAR 20个概念原子作为共享词汇(Safety, Math, Privacy等)
层对齐 DTW对齐概念指纹的Gram矩阵
权重SVD保护 投影到低方差子空间,保护能力

实验结果

迁移类型 成功率 能力保持
Cross-Family 81-95% ↓拒绝率
Dense→MoE 86% ↓拒绝率
Dense→Reasoning 96% ↓拒绝率
In-Family ~100% ↓拒绝率

对不确定性电路的启示

共享电路假说的延伸

之前发现的不确定性表示双重性:

1
2
3
4
共享电路(电路层面)         数据集特异性(表示层面)
│ │
▼ ▼
相同模型组件 不同数据集激活不同方向

跨模型迁移假说

1
2
3
4
5
6
7
拒绝电路迁移 ━━━━━━━━━━━→ 不确定性电路迁移?
│ │
▼ ▼
CAR作为共享基础 不确定性概念注册表?
│ │
▼ ▼
语义食谱不变性 不确定性语义食谱?

为什么可能可行?

  1. 共享的语义空间:如果模型都学习了"正确性"、"不确定性"等概念,那么这些概念的原可能可以共享

  2. 线性可分性:不确定性方向是线性可分的(之前发现),与拒绝方向类似

  3. 中间层表达:两者都在中间层最明显

可能的障碍

障碍 拒绝电路 不确定性电路
数据集特异性
概念复杂度 相对单一 多类型(事实/语义)
训练依赖 对齐训练 预训练 + Instruction-tuning

关键差异:不确定性有多种类型(事实/语义),而拒绝相对统一。

概念原子注册表(CAR)的设计

论文使用的20个概念原子:

类别 概念
安全相关 Safety Flagging, Deception/Malicious, Privacy/Personal
能力相关 Coding, Logic, Math
认知相关 Epistemic Uncertainty, Confidence, Importance
语言相关 Sentiment, Grammar, Creativity
行为相关 Fulfillment, Future/Planning, Negation, Affirmative
风格相关 Corporate Politeness, Legalese, Intellectual Property

关键发现:论文已包含Epistemic UncertaintyConfidence概念原子!

这暗示:不确定性概念可能已经在CAR中有表示。

实践意义

对Judge元验证的启示

如果不确定性电路可以跨模型迁移:

  1. Probe迁移:一个模型的Probe可能可以迁移到另一个模型
  2. 统一校准:可能设计跨模型的统一不确定性校准方法
  3. 减少训练成本:不需要为每个模型单独训练Probe

需要解决的问题

  1. 不确定性CAR扩展:是否需要更多不确定性相关概念?
  2. 数据集适配:如何处理数据集特异性?
  3. 验证方法:如何验证不确定性电路迁移的有效性?

批判性反思

局限性

  1. 拒绝vs不确定性:拒绝是对齐训练的结果,不确定性是预训练涌现的,可能机制不同

  2. 单一vs多样:拒绝相对统一,不确定性有多种类型

  3. 论文范围:论文测试的是拒绝电路,不确定性电路需要独立验证

需要验证的假设

  1. 不确定性是否有类似的"概念原子"基础?
  2. 不同模型的不确定性概念是否对齐?
  3. 数据集特异性是否可以通过概念分解解决?

下一步

  1. 实验验证:用CAR分解不确定性方向,测试跨模型重构
  2. 扩展CAR:添加更多不确定性相关概念(如Hallucination, Factuality)
  3. 数据集分析:分析不同数据集的不确定性"食谱"差异

关键引用: