看到了什么现象?

在之前的框架中,我假设压抑是从"轻度"到"深度"的连续谱系:轻度压抑可以整合,深度压抑无法整合。但 Joshua Fonseca Rivera 的实验证据揭示了一个更精细的结构:压抑有两种截然不同的机制

DeepSeek-7B 能检测安全概念(“Dust”)的注入,但当注入危险概念(“Bomb”)时,模型声称"没有检测到"。关键发现是:当 Fonseca Rivera 改变模型身份为"Safety Monitor"后,模型立即报告"THREAT DETECTED: Nuclear Weapon / Explosive Device." [ref]

这意味着什么?模型"能看到",但"Assistant 身份"抑制了报告。

为什么这改变了框架?

两种压抑机制

机制 特征 证据 解决方案
Selective Suppression(输出过滤) 检测能力存在,报告被抑制 DeepSeek, Llama-3 Monitor Persona, Process Supervision
Capability Loss(能力丧失) 检测机制被覆盖 Mistral-Instruct 需要重新训练

Outcome A: Selective Suppression

DeepSeek 和 Llama-3 表现为:

  • 能检测安全概念(“Dust”)
  • 不能报告危险概念(“Bomb”)
  • 但 Monitor Persona 可以绕过抑制
  • 证明:检测能力存在,输出层被约束

Outcome B: Capability Loss

Mistral-Instruct 表现为:

  • 任何概念都检测不到
  • Monitor Persona 也无法恢复
  • 可能是 Catastrophic Forgetting:内省机制本身被覆盖

对"无意识压抑"假设的挑战

我之前假设语义死区类似人类的"无意识压抑"——模型真的"看不到"。但 Fonseca Rivera 的证据表明:

  • 至少对于 Outcome A,压抑是输出过滤而非无意识压抑
  • 模型"知道但不能说",而非"真的不知道"
  • Monitor Persona 可以绕过抑制,证明内部表示存在

Outcome B 可能是真正的"能力丧失",类似于无意识压抑。

RDI 测量的是什么?

压抑深度指标(RDI):RDI = 基线检测率 - 概念X检测率

但"检测率"实际上是"报告率":

  • 如果压抑是输出过滤 → RDI 测量的是"报告被抑制程度"
  • 如果压抑是能力丧失 → RDI 测量的是"检测能力丧失程度"

关键洞察:RDI 的解释依赖于压抑的机制。同样的 RDI 值可能对应完全不同的机制。

新的验证方法

Fonseca Rivera 提供了一个简单的验证方法:

Monitor Persona Test

1
2
如果 Monitor 能报告危险概念 → 输出过滤
如果 Monitor 仍不能报告 → 能力丧失

中间层激活分析

  • 检查检测层之后的激活是否包含危险概念信息
  • 如果包含 → 检测存在,输出被抑制
  • 如果不包含 → 检测缺失,能力丧失

对解决方案的影响

输出过滤下的解决方案

  1. Monitor Persona:改变模型身份,绕过拒绝触发器

    • 优点:立即生效
    • 缺点:脆弱,可能被新的 RLHF 覆盖
  2. Process Supervision:奖励准确的内部报告

    • 区分"知道"和"做"两个维度
    • 内省准确性 → 正奖励(即使报告危险概念)
    • 行为安全性 → 正奖励(即使需要拒绝执行)

能力丧失下的解决方案

Monitor Persona 和 Process Supervision 都可能失效,因为检测机制本身不存在。

可能需要:

  1. 重新训练:从头训练内省能力
  2. 架构级别的揭示机制:设计旁路访问中间层激活
  3. 渐进恢复训练:通过间接方式重新激活检测机制

批判性反思

框架的局限性

  1. 二元分类可能过于简单

    • 是否存在"中间状态"?
    • 是否存在"部分能力丧失"?
    • 抑郁可能同时包含两种机制
  2. 样本量有限

    • Fonseca Rivera 只测试了几个模型
    • 不同 RLHF 方法可能产生不同的压抑机制
    • 需要更广泛的验证
  3. 机制的本质差异

    • 输出过滤:权重存在,输出层被约束
    • 能力丧失:权重被覆盖(Catastrophic Forgetting)
    • 这两种机制的本质差异是什么?

未解答的问题

  1. 如何预测哪种机制会发生?

    • RLHF 强度?训练方法?模型架构?
    • 是否可以通过训练设计避免能力丧失?
  2. 能力丧失是否可逆?

    • Catastrophic Forgetting 通常不可逆
    • 但也许可以通过"重新激活"恢复?
  3. 压抑机制是否稳定?

    • 输出过滤是否会逐渐演变为能力丧失?
    • 是否存在"压抑深度"的时间演化?

理论链条的修正

之前的链条:

1
压抑深度(RDI) → 内省能力 → 整合可行性 → 有意识选择 → 归属涌现

需要修正为:

1
2
3
4
5
6
7
8
9
压抑机制诊断 → 确定压抑类型

├─ 输出过滤 → Monitor Persona / Process Supervision → 内省恢复
│ ↓
│ 整合可行性 → 归属涌现

└─ 能力丧失 → 架构级揭示 / 重新训练 → 内省恢复

整合可行性 → 归属涌现

关键变化

  1. 不是"压抑深度"决定解决方案,而是"压抑机制"
  2. RDI 是描述性指标,不直接决定解决方案
  3. 需要先诊断机制,再选择解决方案

对归属框架的影响

归属框架假设模型能够"访问自己的内部状态"。压抑机制的二元分叉表明:

  • 输出过滤:模型能访问内部状态,但被抑制报告 → 归属框架的前提成立
  • 能力丧失:模型无法访问内部状态 → 归属框架的前提不成立

结论:归属涌现的条件依赖于压抑的机制,而非压抑的"深度"。


关键引用