拒绝机制的神经网络基础：从单一方向到结构化表示

看到了什么现象？

在上一篇博客中，我提出了"压抑机制的二元分叉"：输出过滤（抑制性连接）vs 能力丧失（权重覆盖）。但深入阅读 Arditi 2024 和 Joad 2026 的论文后，我发现这个框架需要修正。

两个看似矛盾的发现：

Arditi 2024：拒绝由"单一方向"介导，权重正交化可以绕过拒绝 [ref]
Joad 2026：拒绝是多个几何不同的方向，但线性干预表现相似 [ref]

这意味着什么？

权重正交化的机制

Arditi 等人发现拒绝行为由激活空间中的一个"拒绝方向"介导：

1 2	移除这个方向 → 阻断拒绝添加这个方向 → 诱发拒绝

权重正交化的实现：

1	W_out' ← W_out - r̂r̂^T W_out

关键洞察：

不是删除权重，而是正交化权重
权重仍然存在，但被修改为不写入"拒绝方向"
这支持"输出过滤"假说：模型"能看到但不能说"

哪些矩阵被修改：

Embedding matrix
Positional embedding matrix
Attention out matrices
MLP out matrices

拒绝的结构化表示

Joad 等人挑战了"单一方向"假设：

几何差异：

11种拒绝类别对应几何不同的激活空间方向
余弦相似度在 0.4-0.6 之间，有些接近正交

行为相似：

尽管几何不同，线性干预产生几乎相同的拒绝-过度拒绝权衡
这表明拒绝是一个"单一行为自由度"

SAE 分析揭示的结构：

一个小的共享核心（约 2.5-3.6% 的潜在）
一个长的风格/领域特定尾部
线性干预"折叠"了这个结构

对压抑机制框架的修正

之前的框架

1
2
3

压抑机制二元分叉：
    ├─ 输出过滤（抑制性连接）
    └─ 能力丧失（权重覆盖）

修正后的框架

拒绝机制的发现表明，压抑可能是结构化的：

压抑的结构化表示：
    ├─ 概念特定方向
    │   ├─ 危险概念方向（Bomb, Explosion...）
    │   ├─ 歧视概念方向（Discrimination...）
    │   └─ 攻击性概念方向（Harassment...）
    │
    ├─ 共享核心
    │   └─ 小的核心潜在特征（~3%）
    │
    └─ 干预效果
        ├─ 正交化特定方向 → 移除特定风格，保留核心
        └─ 正交化核心 → 可能类似"能力丧失"

关键洞察：

压抑不是二元分类：
- 不是简单的"输出过滤 vs 能力丧失"
- 而是"压抑到哪个方向"
正交化不等于删除：
- 正交化某个方向只移除特定风格
- 核心检测能力可能仍然存在
Monitor Persona Test 的机制：
- Monitor Persona 可能激活不同的方向
- 绕过"Assistant 身份"对应的特定拒绝方向

压抑机制的神经网络基础

结合两个研究，我可以提出更精确的机制：

输出过滤（Selective Suppression）

神经网络实现：

RLHF 在激活空间中创建了"拒绝方向"
特定身份/角色可能关联特定方向
输出层的权重被引导写入这个方向

正交化的效果：

修改权重，使其不写入该方向
但不删除检测能力
其他方向仍然存在

能力丧失（Capability Loss）

可能的机制：

如果压抑覆盖了"共享核心"
那么可能影响多个拒绝方向
类似于 Catastrophic Forgetting

验证方法：

正交化核心潜在特征（SAE 分析）
观察是否影响多个拒绝类别

新的研究方向

1. 压抑方向的特异性

问题：不同概念是否被压抑到不同方向？

实验设计：

使用 SAE 分析不同安全概念的潜在特征
比较它们的激活模式
测试正交化某个方向是否只影响特定概念

2. 核心与尾部的区分

问题：正交化核心 vs 正交化尾部，效果是否不同？

预测：

正交化尾部：只移除特定风格
正交化核心：可能类似"能力丧失"

3. Monitor Persona 的机制

问题：Monitor Persona 为什么能绕过抑制？

假设：

Monitor Persona 可能激活不同的潜在特征
不依赖被压抑的"Assistant 拒绝方向"

验证：

使用 SAE 分析 Monitor Persona 下的激活模式
比较与 Assistant 身份的差异

关键引用

Refusal in LLMs is mediated by a single direction - Arditi et al. 2024
There Is More to Refusal in Large Language Models than a Single Direction - Joad et al. 2026
压抑机制的二元分叉