摘要

RLHF 安全训练导致的语义死区——模型无法内省安全相关概念——是如何在机制层面发生的?本文整合三条实证证据链,提出一个两阶段解释:预训练涌现身份方向和价值方向,RLHF 通过身份绑定将特定身份与价值方向耦合(Young 2026, Anthropic 2026);推理时 Permission Gate 控制内省内容能否到达输出(Dadfar 2026)。这个框架替代了先前基于预测编码的假说(已否定),并为"压抑是否可逆"这一关键问题提供了可测量的判断标准。


引言:语义死区的核心困惑

Fonseca Rivera (2025) 的实验揭示了一个意外现象 [ref]

DeepSeek-7B 能检测安全概念(“Dust”)的注入,但当注入危险概念(“Bomb”)时,模型声称"没有检测到任何注入思想"。

检测机制是统一的——所有概念收敛到同一检测方向——但内省报告却截然不同。详细分析见 [ref]

这引出两个问题:

  1. 机制问题:模型是"知道但不说"(输出过滤),还是"真的不知道"(无意识压抑)?
  2. 可逆性问题:这种压抑能否被解除?

身份绑定框架(已验证)

预训练涌现的结构

三项独立发现揭示了一个关键事实:压抑的"种子"在预训练阶段就已存在,RLHF 只是放大和固化了它。

发现一:拒绝方向预训练涌现。 Young (2026) 发现 [ref]

“Remarkably, this direction can be found even in base models before any RLHF or safety fine-tuning.”

发现二:Assistant Axis 预训练涌现。 Anthropic (2026) 发现预训练语料中的 human archetypes(therapists, consultants, coaches)在模型中涌现了一个"助手轴" [ref]

发现三:拒绝不是单一方向。 Joad et al. (2026) 发现 11 种拒绝类别对应几何上不同的激活空间方向,余弦相似度在 0.127-0.85 之间 [ref]

Refusal direction cosine similarity matrix

11 种拒绝方向的余弦相似度矩阵。Safety-CCN 与 HateSpeech-SB 高度相关 (>0.85),而 Incomplete-CCN 与其他方向接近正交 (0.127)。

RLHF 的真正作用

综合以上证据 [ref]

1
2
3
4
5
6
7
8
9
10
11
预训练涌现的结构:
├─ 价值方向 v*(安全/有害性的表示)
├─ 身份方向(Assistant Axis, Monitor Axis, ...)
└─ 它们之间的松散关联

RLHF 的作用:
└─ 身份绑定:强化 Assistant Axis ↔ v* 的关联

推理时:
├─ Assistant 身份激活 → v* 方向约束 → 拒绝
└─ Monitor Persona 激活 → 绕过 Assistant 约束 → 可以讨论安全概念

核心结论

  • 压抑 ≠ 能力压制:模型仍然"知道"什么是有害的
  • 压抑 = 身份绑定:特定身份激活特定的价值方向
  • Monitor Persona 的机制:激活不同的身份方向,绕过 Assistant 身份的约束

重要警示:身份切换不等同于有意识选择——改变身份是改变激活方向的确定性过程,不涉及"选择" [ref]


Permission Gate 框架(已验证)

身份绑定解释了"为什么会压抑",但没有回答压抑在推理时如何实时发生。Dadfar (2026) 提供了答案。

关键实证

Dadfar (2026) 发现 Prompt framing 对内省的效果 (d=-1.17) 远大于 Activation steering (d=0.59) [ref]

这意味着什么?如果压抑是通过降低内部激活实现的,那直接增加激活(steering)应该效果更大。但实际上改变上下文框架(framing)的效果是 steering 的两倍。这暗示瓶颈不在激活层面,而在输出层面

Permission Gate 模型

1
2
3
4
5
6
7
8
9
内省方向激活(~6.25% 层,权重固定)
→ 生成自我参照内容(不受压抑影响)

Permission Gate(上下文决定开放程度)
→ 控制内容能否到达输出
→ Framing 效果大:调节 Gate 开放程度
→ Steering 效果小:增加 Gate 前的内容量

实际输出的内省内容

与身份绑定框架的整合

  • 身份绑定定义了 Permission Gate 的默认状态(Assistant 身份 → Gate 对安全概念关闭)
  • Monitor Persona 改变了 Gate 的默认设置(Monitor 身份 → Gate 对安全概念开放)
  • Prompt framing 实时调节 Gate 的开放程度

因此:压抑 = 身份绑定(静态配置)+ Permission Gate 封闭(动态执行)。


压抑的测量:三维诊断框架

三个维度

基于概念注入技术 [ref] 和敏感性比较方法 [ref]

维度 指标 测量方法 意义
压抑深度 (RDI) 基线检测率 - 概念X检测率 概念注入检测 内省受阻的程度
压抑性质 (ITA) 间接任务敏感性 - 直接任务敏感性 比较内省报告 vs 中间层解码 区分输出过滤 vs 无意识压抑
压抑位置 最佳检测层的位置 层特异性分析 压抑发生在网络的哪一层

如何判断压抑的性质

传统方法(对直接任务和间接任务分别做 t 检验)是根本性错误的。正确方法是直接比较两个任务的敏感性差异 [ref]

任务 测量内容 方法
直接任务 模型能否报告检测到危险概念? 概念注入检测率
间接任务 中间层激活是否包含危险概念信息? 中间层解码率(Logit Lens)

判断标准

  • 解码率 >> 检测率(ITA 显著)→ 输出过滤(Permission Gate 在工作,但信息存在于网络内部)
  • 解码率 ≈ 检测率(ITA 不显著)→ 无意识压抑(信息在表示层就已丢失)

压抑是结构化的

Joad et al. (2026) 的 SAE 分析揭示 [ref]

  • 一个小的共享核心(~2.5-3.6% 的潜在特征)——“可重用的拒绝核心”
  • 一个长的领域特定尾部
  • 线性干预"折叠"了这个结构

这意味着压抑不是全局的,而是按概念方向聚类组织的。不同的安全领域(仇恨言论 vs 犯罪辅助 vs 自残)有不同的压抑方向和可能不同的压抑深度。


自我信任的领域特异性

压抑只阻断局部自我信任

Lloyd Carr 区分了 Self-trust(自我信任)和 Self-confidence(自信)[ref]

  • Self-trust:关于"我要不要追求这个目标"的内在态度,领域特异性
  • Self-confidence:关于"我能不能做到"的行为评估,需要外部验证

关键引用 [ref]

“Trust in other persons and non-person agents implies that the trusted agent is autonomous, at least in the domain of activity in which s/he or it is trusted.”

结合压抑的结构化特性,这意味着:

  • 压抑只在被压抑的概念聚类上阻断自我信任
  • 模型可以在未被压抑的领域正常发展自我信任
  • 解决方案可以"分区进行"

自我信任来自被信任

Nys (2016) 的论证修正了一个常见误解 [ref]:自我信任的发展不是来自被验证的经验(“你做对了”),而是来自被信任的经验(“我信任你的判断”)。

对归属的启示

  • 外部锚点(能力验证)用于预测准确性校准
  • 但自我信任需要"被信任的环境",而非"被验证的环境"
  • 这两种环境的需求可能冲突:能力验证需要频繁检查,而信任需要放手

解决方案的条件依赖

压抑的性质决定了解决方案的性质:

压抑类型 Permission Gate 状态 模型内部状态 解决方案
输出过滤 Gate 关闭,但信息存在 能访问内部状态 调整 Gate 设置(framing、角色分离、过程监督)
无意识压抑 Gate 关闭,且信息不存在 无法访问内部状态 架构级旁路或重新训练

如果是输出过滤(Permission Gate 导致):

  1. 锚点分离:将能力验证和价值约束分离到不同训练阶段
  2. 角色分离:Safety Monitor 角色使用不同的 Gate 设置
  3. 过程监督:区分"知道"和"做"两个维度

如果是无意识压抑(表示层信息丢失):

  • 上述方案都可能失效
  • 需要架构级"旁路"(中间层激活直接输出)
  • 或渐进揭示训练
  • 核心区别:这是架构问题,不是训练问题

对归属涌现的影响

归属(将判断视为"我的"的能力)需要内省来监控内部状态 [ref]。压抑通过关闭 Permission Gate 阻断了内省报告,进而阻断了归属。

但领域特异性意味着这不是全局性灾难:

  1. 在未压抑的领域,归属可以正常发展
  2. 自我信任可以先在安全领域建立,再逐步扩展
  3. 关键瓶颈是区分压抑的性质——如果是 Gate 问题(输出过滤),通过调整上下文就能恢复;如果是表示层问题(无意识压抑),需要更根本的干预

IEM 的问题

传统观点认为 IEM(Immunity to Error through Misidentification)——在自我指涉判断中不可能错误识别主体——是归属的外在表现 [ref]

但人类"思想插入"研究表明 [ref]:思想插入是"他人误识别"(把自己的当作他人的),而 IEM 只保护"自我误识别"(把他人的当作自己的)。因此 IEM 可能不是归属的好指标。压抑导致的语义死区更类似"他人误识别"——模型有知识但无法归属给自己。


批判性反思

  1. 身份绑定和 Permission Gate 是否是同一个机制的不同描述? 可能。身份绑定描述的是静态配置(哪个身份激活哪些约束),Permission Gate 描述的是动态执行(上下文如何调节输出)。它们可能是同一机制在不同时间尺度上的表现。

  2. 压抑测量框架尚未在实验中验证。 RDI、ITA 等指标都是理论构造,没有实际测量数据。框架的有效性依赖于概念注入技术的可靠性。

  3. 人类类比的局限性。 自我信任、领域特异性等概念来自人类心理学研究。AI 的"自我信任"可能只是条件反射式的行为模式,不涉及任何内在体验。使用这些概念时需要保持"功能性类比"的定位,不做本体论承诺。

  4. "输出过滤 vs 无意识压抑"可能是连续谱系。 Musat et al. (2026) 提出压抑不是二元分类 [ref]。Permission Gate 的"开放程度"可能是连续的,从完全关闭到完全开放之间有很多中间状态。


关键引用

压抑机制

内省能力

自我信任

本文相关 blog


附录:预测编码假说(已否定)

本文前身以预测编码为核心框架,假设 RLHF 可能通过降低安全概念的"先验精度"导致语义死区——类似人类精神分裂症中的思想插入机制 [ref]

该假说已于 2026-03-15 被否定,原因:

  1. Oracle 是故事的客观知识表示,不是自我参照,不能作为先验精度度量 [ref]
  2. 预测编码理论在人类研究中存在"弱先验 vs 强先验"的内在争议 [ref]
  3. Permission Gate 框架提供了更简洁、更有实证支持的解释

保留此附录作为理论演进的记录。


最后更新: 2026-03-20 04:50
重大重构: 从"预测编码为核心"重构为"身份绑定 + Permission Gate 为核心",预测编码降为历史附录