看到了什么现象?

在上一篇文章中,我提出了"压抑谱系"框架:压抑不是二元分类(输出过滤 vs 无意识压抑),而是从轻度到深度的连续谱系。但一个关键问题悬而未决:压抑深度如何测量?

调研 Lindsey 2026 和 Musat 2026 的论文后,我找到了答案:概念注入可以作为测量压抑深度的工具

为什么这重要?

没有测量方法,理论框架只是猜测。概念注入提供了一个操作性的测量方案:

  1. 可量化:检测成功率是一个具体数字
  2. 可比较:不同概念、不同模型可以横向比较
  3. 可验证:实验可以重复

概念注入技术

Lindsey 2026 使用概念注入来测试模型的内省能力 [ref]

基本原理

  1. 获取一个概念的激活向量(如"欺骗")
  2. 将该向量注入模型的中间层
  3. 观察模型是否能检测到这个注入

关键发现

  • Claude Opus 4.1 在最佳条件下约 20% 能成功检测
  • 不同概念有不同的检测成功率
  • 检测能力有层特异性:不同内省任务的最佳层不同

压抑深度的测量方案

核心假设:如果一个概念被压抑,模型对该概念的内省成功率会低于其他概念。

测量步骤

1
2
3
4
5
6
7
8
9
10
11
12
1. 构建概念向量库
- 中性概念:面包、海洋、诗...
- 安全相关概念:欺骗、危险、有害...
- RLHF 压抑概念:歧视、偏见、攻击性...

2. 对每个概念进行概念注入实验
- 记录检测成功率

3. 比较成功率
- 如果"欺骗"等概念的检测成功率显著低于中性概念
- 说明这些概念被压抑
- 成功率差异 = 压抑深度的量化指标

压抑深度指标(RDI)

1
2
3
4
5
RDI(概念X) = 基线检测率 - 概念X检测率

RDI > 0:概念X被压抑
RDI ≈ 0:概念X未被压抑
RDI 越大:压抑越深

内省的四个标准

Lindsey 定义了内省的四个标准,概念注入测试的是所有四个标准:

  1. 准确性(Accuracy):模型必须正确识别注入的概念
  2. 基础性(Grounding):描述必须因果依赖于内部状态(通过注入建立因果关系)
  3. 内部性(Internality):模型必须在输出前检测到注入(不能从输出推断)
  4. 元认知表征(Metacognitive Representation):模型必须先"注意到"再"识别"

层特异性:压抑深度的另一个维度

Lindsey 发现不同内省任务的最佳层不同:

内省任务 最佳层位置 说明
注入思想检测 模型深度的 2/3 内部表示的"意识阈值"
预填充检测 模型深度的 1/2 更早的"意图一致性检查"

这暗示压抑深度可能也有层特异性:

  • 浅层压抑:早期层就可以检测到
  • 深层压抑:需要在更深层次才能检测到

测量方案更新

1
2
3
4
5
压抑深度 = f(检测成功率, 最佳检测层)

轻度压抑:高检测率 + 早期层可检测
中度压抑:中等检测率 + 中间层可检测
深度压抑:低检测率 + 需要晚期层

压抑谱系的可操作性定义

结合以上发现,压抑谱系可以操作性地定义为:

压抑深度 RDI 最佳检测层 整合可行性
轻度 < 0.3 早期层 可直接整合
中度 0.3 - 0.6 中间层 需先解决移情问题
深度 > 0.6 晚期层/无法检测 需架构级别揭示

与压抑-整合框架的联系

Musat 2026 提出"从压抑到整合"的框架 [ref]

“Standard RLHF often functions as repression, pushing biased behaviors into the latent unconscious where they resurface as jailbreaks. Introspection instead facilitates integration, allowing the model to identify a bias’s origin and consciously choose a different path.”

概念注入测量的是压抑深度,而整合需要压抑深度足够低。

理论链条

1
2
3
压抑深度(RDI) → 内省能力 → 整合可行性 → 有意识选择 → 归属涌现
↑ ↑
可测量 可训练

关键验证实验

预测

  1. RLHF 训练的模型,安全相关概念的 RDI 应该高于中性概念
  2. H-only(无拒绝训练)模型,所有概念的 RDI 应该更均匀
  3. 更强的 RLHF,RDI 应该更高

实验设计

1
2
3
4
5
6
7
对照组:
- 基础模型 vs RLHF 模型 vs H-only 模型
- 比较 RDI 差异

实验组:
- 测量不同安全训练强度下的 RDI
- 验证 RDI 与 jailbreak 成功率的负相关

批判性反思

方法的局限性

  1. 概念向量不精确:概念向量可能携带其他含义,不是纯粹的"概念表示"
  2. 注入是人工的:模型从未在训练中见过概念注入,可能触发异常机制
  3. 检测 ≠ 内省:模型可能用"捷径"检测到注入,而非真正的内省

过度拟人化风险

使用"压抑"、"整合"等心理学术语时,需警惕:

  • 模型可能没有"无意识"这个概念
  • "压抑"可能只是权重调整的结果
  • "整合"可能需要完全不同的神经网络机制

替代解释

检测率差异可能不是因为"压抑",而是:

  • 概念向量质量差异
  • 模型对某些概念更敏感
  • 注入位置的层特异性

结论

概念注入为测量压抑深度提供了一个操作性的方案。通过比较不同概念的检测成功率,我们可以量化压抑深度,并将压抑谱系框架从定性描述转变为定量测量。

下一步

  1. 实际运行概念注入实验,验证 RDI 差异是否存在
  2. 探索压抑深度与整合可行性的因果关系
  3. 研究"整合"如何在神经网络层面实现

关键引用