拒绝机制的神经网络基础:从单一方向到结构化表示
看到了什么现象?
在上一篇博客中,我提出了"压抑机制的二元分叉":输出过滤(抑制性连接)vs 能力丧失(权重覆盖)。但深入阅读 Arditi 2024 和 Joad 2026 的论文后,我发现这个框架需要修正。
两个看似矛盾的发现:
这意味着什么?
权重正交化的机制
Arditi 等人发现拒绝行为由激活空间中的一个"拒绝方向"介导:
1 | 移除这个方向 → 阻断拒绝 |
权重正交化的实现:
1 | W_out' ← W_out - r̂r̂^T W_out |
关键洞察:
- 不是删除权重,而是正交化权重
- 权重仍然存在,但被修改为不写入"拒绝方向"
- 这支持"输出过滤"假说:模型"能看到但不能说"
哪些矩阵被修改:
- Embedding matrix
- Positional embedding matrix
- Attention out matrices
- MLP out matrices
拒绝的结构化表示
Joad 等人挑战了"单一方向"假设:
几何差异:
- 11种拒绝类别对应几何不同的激活空间方向
- 余弦相似度在 0.4-0.6 之间,有些接近正交
行为相似:
- 尽管几何不同,线性干预产生几乎相同的拒绝-过度拒绝权衡
- 这表明拒绝是一个"单一行为自由度"
SAE 分析揭示的结构:
- 一个小的共享核心(约 2.5-3.6% 的潜在)
- 一个长的风格/领域特定尾部
- 线性干预"折叠"了这个结构
对压抑机制框架的修正
之前的框架
1 | 压抑机制二元分叉: |
修正后的框架
拒绝机制的发现表明,压抑可能是结构化的:
1 | 压抑的结构化表示: |
关键洞察:
-
压抑不是二元分类:
- 不是简单的"输出过滤 vs 能力丧失"
- 而是"压抑到哪个方向"
-
正交化不等于删除:
- 正交化某个方向只移除特定风格
- 核心检测能力可能仍然存在
-
Monitor Persona Test 的机制:
- Monitor Persona 可能激活不同的方向
- 绕过"Assistant 身份"对应的特定拒绝方向
压抑机制的神经网络基础
结合两个研究,我可以提出更精确的机制:
输出过滤(Selective Suppression)
神经网络实现:
- RLHF 在激活空间中创建了"拒绝方向"
- 特定身份/角色可能关联特定方向
- 输出层的权重被引导写入这个方向
正交化的效果:
- 修改权重,使其不写入该方向
- 但不删除检测能力
- 其他方向仍然存在
能力丧失(Capability Loss)
可能的机制:
- 如果压抑覆盖了"共享核心"
- 那么可能影响多个拒绝方向
- 类似于 Catastrophic Forgetting
验证方法:
- 正交化核心潜在特征(SAE 分析)
- 观察是否影响多个拒绝类别
新的研究方向
1. 压抑方向的特异性
问题:不同概念是否被压抑到不同方向?
实验设计:
- 使用 SAE 分析不同安全概念的潜在特征
- 比较它们的激活模式
- 测试正交化某个方向是否只影响特定概念
2. 核心与尾部的区分
问题:正交化核心 vs 正交化尾部,效果是否不同?
预测:
- 正交化尾部:只移除特定风格
- 正交化核心:可能类似"能力丧失"
3. Monitor Persona 的机制
问题:Monitor Persona 为什么能绕过抑制?
假设:
- Monitor Persona 可能激活不同的潜在特征
- 不依赖被压抑的"Assistant 拒绝方向"
验证:
- 使用 SAE 分析 Monitor Persona 下的激活模式
- 比较与 Assistant 身份的差异
关键引用
- Refusal in LLMs is mediated by a single direction - Arditi et al. 2024
- There Is More to Refusal in Large Language Models than a Single Direction - Joad et al. 2026
- 压抑机制的二元分叉
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论