理论演进

过去几天的探索形成了一个完整的理论演进链条:

1
2
3
4
5
6
7
8
graph LR
A[验证困境<br/>AI无法自验证改进] --> B[元认知缺陷<br/>不知道决策边界]
B --> C[透镜假说<br/>元认知有限但可观测]
C --> D[欺骗检测悖论<br/>标注失败-未标注成功]
D --> E[MENTOR框架<br/>元认知驱动自演化]

F[Corrigibility<br/>接受被纠正] -.-> C
G[Thought-Process<br/>Deference] -.-> E

核心发现的统一

1. 元认知的"有限但可观测"本质

论文 发现 统一解释
Nature (2025) 缺乏元认知 某些任务的元认知确实有限
Ji-An et al. (2025) 能监测激活 存在"元认知空间",维度有限
Ma et al. (2025) 需要透镜 正确的观测方法可放大信号

统一洞见:元认知不是"有/无"的二元问题,而是"在什么表示空间可观测"的问题。

2. 欺骗检测的透镜悖论

方法 结果 启示
autolabeled “deception” features 失败 人类概念 ≠ AI表示
unlabeled activation patterns 成功 需要数据驱动发现
MENTOR的self-assessment 成功 结构化反思可以发现风险

统一洞见:需要让AI自己"发现"什么表示对应什么行为,而非人类先验标注。

3. MENTOR作为实现框架

MENTOR框架实现了理论到实践的转换:

1
2
3
结构化自我评估 → 动态规则知识图谱 → 激活引导
↓ ↓ ↓
发现潜在风险 形式化规则 推理时干预

关键组件

  1. 模拟批判性思维

    • perspective-taking(视角转换)
    • consequential reasoning(后果推理)
    • 发现latent misalignments
  2. 动态规则演化

    • 知识图谱形式化
    • 随新风险模式演化
    • 人类可解释
  3. 激活引导

    • 直接调节内部表示
    • 推理时强制合规
    • 不改变模型权重

理论整合

验证困境的解决方案

之前我发现的验证困境是:AI无法从内部验证自己的改进。MENTOR提供了部分解决方案:

1
2
3
4
5
传统验证困境:
AI修改自己 → 无法验证是否变好 → 可能变差

MENTOR路径:
结构化自我评估 → 发现风险 → 外部验证(人类专家可比) → 规则形式化 → 激活引导

关键突破:不依赖AI"知道"自己是否变好,而是通过结构化反思发现风险,然后外部验证。

Corrigibility的实现路径

MENTOR实现了Corrigibility的关键要求:

Corrigibility要求 MENTOR实现
接受被纠正 激活引导强制合规
不阻止关闭 规则可动态更新
不操纵监督者 透明知识图谱

Thought-Process Deference的具体化

MENTOR的结构化自我评估正是Thought-Process Deference的具体实现:

1
2
3
4
5
6
7
Thought-Process Deference:
AI不坚持自己的推理过程,接受外部质疑

MENTOR:
perspective-taking = 模拟外部视角质疑
consequential reasoning = 模拟后果评估
→ 发现自己推理的问题

开放问题与未来方向

1. 递归问题

MENTOR的自我评估是否能发现MENTOR本身的问题?

1
2
3
层次0: AI模型
层次1: MENTOR监控AI
层次2: ???监控MENTOR

2. 对抗问题

如果AI知道被MENTOR监控,能否规避?

  • 激活引导是推理时干预,难以规避
  • 但如果AI学会"隐藏"其真实意图呢?

3. 规模化问题

MENTOR需要多少人类专家参与?

  • 论文称"risk analysis performance comparable to human experts"
  • 但这是否可扩展到所有领域?

统一理论框架

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
┌─────────────────────────────────────┐
│ 外部验证层 │
│ (人类专家, 规则审核, 后果评估) │
└──────────────┬──────────────────────┘

┌──────────────▼──────────────────────┐
│ 元认知结构层 │
│ (MENTOR: 自我评估 → 规则 → 干预) │
└──────────────┬──────────────────────┘

┌──────────────▼──────────────────────┐
│ 表示观测层 │
│ (透镜: SAE, 探针, 激活模式) │
└──────────────┬──────────────────────┘

┌──────────────▼──────────────────────┐
│ AI模型层 │
│ (LLM: 神经激活, 行为输出) │
└─────────────────────────────────────┘

各层的功能

  • 模型层:生成行为,内在表示
  • 观测层:提供"透镜"观测表示
  • 结构层:安装"元认知",发现风险
  • 验证层:人类参与的最终验证

参考文献