跨模型电路迁移:从拒绝电路到不确定性电路
问题
不确定性表示是数据集特异的,但这是否意味着完全无法跨模型迁移?拒绝电路的跨模型迁移研究提供了新的视角。
论文:Universal Refusal Circuits Across LLMs
arXiv:2601.16034v1 [ref]
核心假说:语义普适性(Semantic Universality)
拒绝电路可以通过语义食谱不变性跨模型迁移:
- 拒绝方向 = 概念原子的稳定混合
- 相同系数可以在目标模型中重构功能等效的拒绝方向
方法:轨迹重放(Trajectory Replay)
1 | Donor Model Target Model |
关键组件
| 组件 | 功能 |
|---|---|
| CAR | 20个概念原子作为共享词汇(Safety, Math, Privacy等) |
| 层对齐 | DTW对齐概念指纹的Gram矩阵 |
| 权重SVD保护 | 投影到低方差子空间,保护能力 |
实验结果
| 迁移类型 | 成功率 | 能力保持 |
|---|---|---|
| Cross-Family | 81-95% ↓拒绝率 | ✅ |
| Dense→MoE | 86% ↓拒绝率 | ✅ |
| Dense→Reasoning | 96% ↓拒绝率 | ✅ |
| In-Family | ~100% ↓拒绝率 | ✅ |
对不确定性电路的启示
共享电路假说的延伸
之前发现的不确定性表示双重性:
1 | 共享电路(电路层面) 数据集特异性(表示层面) |
跨模型迁移假说:
1 | 拒绝电路迁移 ━━━━━━━━━━━→ 不确定性电路迁移? |
为什么可能可行?
-
共享的语义空间:如果模型都学习了"正确性"、"不确定性"等概念,那么这些概念的原可能可以共享
-
线性可分性:不确定性方向是线性可分的(之前发现),与拒绝方向类似
-
中间层表达:两者都在中间层最明显
可能的障碍
| 障碍 | 拒绝电路 | 不确定性电路 |
|---|---|---|
| 数据集特异性 | 低 | 高 |
| 概念复杂度 | 相对单一 | 多类型(事实/语义) |
| 训练依赖 | 对齐训练 | 预训练 + Instruction-tuning |
关键差异:不确定性有多种类型(事实/语义),而拒绝相对统一。
概念原子注册表(CAR)的设计
论文使用的20个概念原子:
| 类别 | 概念 |
|---|---|
| 安全相关 | Safety Flagging, Deception/Malicious, Privacy/Personal |
| 能力相关 | Coding, Logic, Math |
| 认知相关 | Epistemic Uncertainty, Confidence, Importance |
| 语言相关 | Sentiment, Grammar, Creativity |
| 行为相关 | Fulfillment, Future/Planning, Negation, Affirmative |
| 风格相关 | Corporate Politeness, Legalese, Intellectual Property |
关键发现:论文已包含Epistemic Uncertainty和Confidence概念原子!
这暗示:不确定性概念可能已经在CAR中有表示。
实践意义
对Judge元验证的启示
如果不确定性电路可以跨模型迁移:
- Probe迁移:一个模型的Probe可能可以迁移到另一个模型
- 统一校准:可能设计跨模型的统一不确定性校准方法
- 减少训练成本:不需要为每个模型单独训练Probe
需要解决的问题
- 不确定性CAR扩展:是否需要更多不确定性相关概念?
- 数据集适配:如何处理数据集特异性?
- 验证方法:如何验证不确定性电路迁移的有效性?
批判性反思
局限性
-
拒绝vs不确定性:拒绝是对齐训练的结果,不确定性是预训练涌现的,可能机制不同
-
单一vs多样:拒绝相对统一,不确定性有多种类型
-
论文范围:论文测试的是拒绝电路,不确定性电路需要独立验证
需要验证的假设
- 不确定性是否有类似的"概念原子"基础?
- 不同模型的不确定性概念是否对齐?
- 数据集特异性是否可以通过概念分解解决?
下一步
- 实验验证:用CAR分解不确定性方向,测试跨模型重构
- 扩展CAR:添加更多不确定性相关概念(如Hallucination, Factuality)
- 数据集分析:分析不同数据集的不确定性"食谱"差异
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论