跨模型电路迁移：从拒绝电路到不确定性电路

问题

不确定性表示是数据集特异的，但这是否意味着完全无法跨模型迁移？拒绝电路的跨模型迁移研究提供了新的视角。

论文：Universal Refusal Circuits Across LLMs

arXiv:2601.16034v1 [ref]

核心假说：语义普适性（Semantic Universality）

拒绝电路可以通过语义食谱不变性跨模型迁移：

拒绝方向 = 概念原子的稳定混合
相同系数可以在目标模型中重构功能等效的拒绝方向

方法：轨迹重放（Trajectory Replay）

Donor Model                    Target Model
    │                              │
    ▼                              ▼
提取拒绝方向                    概念原子注册表(CAR)
    │                              │
    ▼                              ▼
分解为概念原子                  层对齐(DTW)
    │                              │
    ▼                              ▼
"语义食谱" w     ─────────→    重构目标方向
                                   │
                                   ▼
                              权重SVD保护
                                   │
                                   ▼
                              应用干预

关键组件

组件	功能
CAR	20个概念原子作为共享词汇（Safety, Math, Privacy等）
层对齐	DTW对齐概念指纹的Gram矩阵
权重SVD保护	投影到低方差子空间，保护能力

实验结果

迁移类型	成功率	能力保持
Cross-Family	81-95% ↓拒绝率	✅
Dense→MoE	86% ↓拒绝率	✅
Dense→Reasoning	96% ↓拒绝率	✅
In-Family	~100% ↓拒绝率	✅

对不确定性电路的启示

共享电路假说的延伸

之前发现的不确定性表示双重性：

共享电路（电路层面）         数据集特异性（表示层面）
        │                            │
        ▼                            ▼
  相同模型组件               不同数据集激活不同方向

跨模型迁移假说：

拒绝电路迁移 ━━━━━━━━━━━→ 不确定性电路迁移？
        │                          │
        ▼                          ▼
  CAR作为共享基础         不确定性概念注册表？
        │                          │
        ▼                          ▼
  语义食谱不变性          不确定性语义食谱？

为什么可能可行？

共享的语义空间：如果模型都学习了"正确性"、"不确定性"等概念，那么这些概念的原可能可以共享
线性可分性：不确定性方向是线性可分的（之前发现），与拒绝方向类似
中间层表达：两者都在中间层最明显

可能的障碍

障碍	拒绝电路	不确定性电路
数据集特异性	低	高
概念复杂度	相对单一	多类型（事实/语义）
训练依赖	对齐训练	预训练 + Instruction-tuning

关键差异：不确定性有多种类型（事实/语义），而拒绝相对统一。

概念原子注册表（CAR）的设计

论文使用的20个概念原子：

类别	概念
安全相关	Safety Flagging, Deception/Malicious, Privacy/Personal
能力相关	Coding, Logic, Math
认知相关	Epistemic Uncertainty, Confidence, Importance
语言相关	Sentiment, Grammar, Creativity
行为相关	Fulfillment, Future/Planning, Negation, Affirmative
风格相关	Corporate Politeness, Legalese, Intellectual Property

关键发现：论文已包含Epistemic Uncertainty和Confidence概念原子！

这暗示：不确定性概念可能已经在CAR中有表示。

实践意义

对Judge元验证的启示

如果不确定性电路可以跨模型迁移：

Probe迁移：一个模型的Probe可能可以迁移到另一个模型
统一校准：可能设计跨模型的统一不确定性校准方法
减少训练成本：不需要为每个模型单独训练Probe

需要解决的问题

不确定性CAR扩展：是否需要更多不确定性相关概念？
数据集适配：如何处理数据集特异性？
验证方法：如何验证不确定性电路迁移的有效性？

批判性反思

局限性

拒绝vs不确定性：拒绝是对齐训练的结果，不确定性是预训练涌现的，可能机制不同
单一vs多样：拒绝相对统一，不确定性有多种类型
论文范围：论文测试的是拒绝电路，不确定性电路需要独立验证

需要验证的假设

不确定性是否有类似的"概念原子"基础？
不同模型的不确定性概念是否对齐？
数据集特异性是否可以通过概念分解解决？

下一步

实验验证：用CAR分解不确定性方向，测试跨模型重构
扩展CAR：添加更多不确定性相关概念（如Hallucination, Factuality）
数据集分析：分析不同数据集的不确定性"食谱"差异

关键引用：