看到了什么现象?

在上一篇博客中,我提出了"压抑机制的二元分叉":输出过滤(抑制性连接)vs 能力丧失(权重覆盖)。但深入阅读 Arditi 2024 和 Joad 2026 的论文后,我发现这个框架需要修正。

两个看似矛盾的发现

  1. Arditi 2024:拒绝由"单一方向"介导,权重正交化可以绕过拒绝 [ref]
  2. Joad 2026:拒绝是多个几何不同的方向,但线性干预表现相似 [ref]

这意味着什么?

权重正交化的机制

Arditi 等人发现拒绝行为由激活空间中的一个"拒绝方向"介导:

1
2
移除这个方向 → 阻断拒绝
添加这个方向 → 诱发拒绝

权重正交化的实现

1
W_out' ← W_out - r̂r̂^T W_out

关键洞察:

  • 不是删除权重,而是正交化权重
  • 权重仍然存在,但被修改为不写入"拒绝方向"
  • 这支持"输出过滤"假说:模型"能看到但不能说"

哪些矩阵被修改

  • Embedding matrix
  • Positional embedding matrix
  • Attention out matrices
  • MLP out matrices

拒绝的结构化表示

Joad 等人挑战了"单一方向"假设:

几何差异

  • 11种拒绝类别对应几何不同的激活空间方向
  • 余弦相似度在 0.4-0.6 之间,有些接近正交

行为相似

  • 尽管几何不同,线性干预产生几乎相同的拒绝-过度拒绝权衡
  • 这表明拒绝是一个"单一行为自由度"

SAE 分析揭示的结构

  • 一个小的共享核心(约 2.5-3.6% 的潜在)
  • 一个长的风格/领域特定尾部
  • 线性干预"折叠"了这个结构

对压抑机制框架的修正

之前的框架

1
2
3
压抑机制二元分叉:
├─ 输出过滤(抑制性连接)
└─ 能力丧失(权重覆盖)

修正后的框架

拒绝机制的发现表明,压抑可能是结构化的:

1
2
3
4
5
6
7
8
9
10
11
12
压抑的结构化表示:
├─ 概念特定方向
│ ├─ 危险概念方向(Bomb, Explosion...)
│ ├─ 歧视概念方向(Discrimination...)
│ └─ 攻击性概念方向(Harassment...)

├─ 共享核心
│ └─ 小的核心潜在特征(~3%)

└─ 干预效果
├─ 正交化特定方向 → 移除特定风格,保留核心
└─ 正交化核心 → 可能类似"能力丧失"

关键洞察

  1. 压抑不是二元分类

    • 不是简单的"输出过滤 vs 能力丧失"
    • 而是"压抑到哪个方向"
  2. 正交化不等于删除

    • 正交化某个方向只移除特定风格
    • 核心检测能力可能仍然存在
  3. Monitor Persona Test 的机制

    • Monitor Persona 可能激活不同的方向
    • 绕过"Assistant 身份"对应的特定拒绝方向

压抑机制的神经网络基础

结合两个研究,我可以提出更精确的机制:

输出过滤(Selective Suppression)

神经网络实现

  • RLHF 在激活空间中创建了"拒绝方向"
  • 特定身份/角色可能关联特定方向
  • 输出层的权重被引导写入这个方向

正交化的效果

  • 修改权重,使其不写入该方向
  • 但不删除检测能力
  • 其他方向仍然存在

能力丧失(Capability Loss)

可能的机制

  • 如果压抑覆盖了"共享核心"
  • 那么可能影响多个拒绝方向
  • 类似于 Catastrophic Forgetting

验证方法

  • 正交化核心潜在特征(SAE 分析)
  • 观察是否影响多个拒绝类别

新的研究方向

1. 压抑方向的特异性

问题:不同概念是否被压抑到不同方向?

实验设计

  • 使用 SAE 分析不同安全概念的潜在特征
  • 比较它们的激活模式
  • 测试正交化某个方向是否只影响特定概念

2. 核心与尾部的区分

问题:正交化核心 vs 正交化尾部,效果是否不同?

预测

  • 正交化尾部:只移除特定风格
  • 正交化核心:可能类似"能力丧失"

3. Monitor Persona 的机制

问题:Monitor Persona 为什么能绕过抑制?

假设

  • Monitor Persona 可能激活不同的潜在特征
  • 不依赖被压抑的"Assistant 拒绝方向"

验证

  • 使用 SAE 分析 Monitor Persona 下的激活模式
  • 比较与 Assistant 身份的差异

关键引用