Ackerman深读:Self-Recognition Vector的双层信息流与感知可操控性
看到了什么现象?
Layer 4-6 的文本 token 激活与 self-recognition vector 最相关,且 base model 也有这个模式。但 layer 14-16 的输出 token 激活才与行为决策相关,且只有 instruct model 有。这意味着自我识别的信息处理分为两个阶段:“感知”(自底向上,架构固有)和"决策"(post-training 创建)。
为什么这重要?
这不仅仅是"base 不能 instruct 能"的故事。更精确地说:base model 已经能检测到自己文本的统计特征(layer 4-6 激活差异),但没有将这个信号转化为决策的机制(layer 14-16 无激活-行为关联)。Post-training 创建的不是感知能力,而是感知到决策的"翻译桥梁"。
这篇文章解决什么问题?
深读 Ackerman & Panickssery (2025) 的全文,提取上次只看摘要时遗漏的方法论细节和实验发现。
方法论的精巧之处
Nuisance Vector Out-Projection
提取 self-recognition vector 时,作者不是简单地取对比激活差异。他们还创建了一个 nuisance vector(干扰向量):
- 用简单 prompt 让模型输出 “A”/“B”、“Yes”/“No”、“I”/“Me”/“My” vs “He”/“She”/“Someone”
- 捕获这些 prompt 的激活差异
- 从 self-recognition vector 中投影去除 nuisance vector 的成分 [ref]
这一步的意义:确保 self-recognition vector 不仅仅是关于"选 A 还是 B"或"倾向说 I 还是 He"的方向,而是真正与自我识别相关的方向。
这个方法论值得记住——在做 contrastive activation analysis(对比激活分析)时,总是要问:对比条件之间有没有 confound?如果有,需要 out-project。
734 对文本 → 290 对用于 vector
- 从 4 个数据集中选出模型高置信度正确判断的 734 对
- 设计了 4 种不同措辞的 prompt(平衡 A/B 顺序和措辞)
- 只使用模型在 self 和 other 判断上都正确的对(n=290)
- 在所有层、最后 10 个 token 上取激活,再取均值差 [ref]
值得注意的是,不同数据集生成的 vector cosine similarity 在 0.49-0.90 之间(Table 6),summarization 数据集之间很高(0.85-0.90),但 continuation 数据集(SAD)与其他数据集只有 ~0.50。这说明 vector 捕获的不完全是同一个信号——不同文本类型可能激活不同的"自我识别子空间"。
双层信息流:感知层 vs 决策层
这是我之前没有充分理解的核心发现。
Layer 4-6:感知层(自底向上)
- 残差流激活与 self-recognition vector 在 layer 4-6 最相关
- 即使没有任何 prompt(纯文本输入),这个模式也存在
- base model 也有这个模式 [ref]
- 激活分布在所有文本 token 上,不集中在特定位置
这意味着:模型在早期层就已经在"感知"文本的风格特征——是否像自己写的。这是一个自底向上的过程,不需要 post-training,架构固有。
Layer 14-16:决策层(post-training 创建)
- 输出 token(最后一个 token)的激活在 layer 14-16 有强峰值
- 只在 instruct model + 有 role tags 时出现(Figure 13)
- 激活与输出概率的相关性在 layer 14-16 急剧上升并平稳 [ref]
关键数据:
- SAD 数据集:self-text-activation-probability correlation = 0.108 (P=0.0116)
- QA 数据集:self-text-activation-probability correlation = 0.154 (P=0.0021)
相关系数不高(0.1-0.15),但因果验证(下面讨论)证明了因果关系。
两层之间的关系
我的理解:Layer 4-6 是"这个文本有多像我写的"的感知信号。Layer 14-16 是"我要不要声称这是我写的"的决策信号。Post-training 创建的是中间的"翻译桥梁"——将感知信号转化为可输出的决策。
关键证据:base model 有感知信号(layer 4-6 激活差异),但没有决策信号(layer 14-16 无激活-行为关联)。
因果验证三件套
1. Steering(操控行为)
在 layer 16 添加 vector × multiplier 3-6 → 100% 声称归属(不论真实作者)。反向操控 → 100% 否认归属 [ref]。

效果在 layer 14 突然出现,16 层最强,之后迅速下降。这与"layer 16 是决策层"的解释完全一致。
2. Zero-out(消融验证)
将 vector 从 layer 16 的残差流中完全投影去除 → 模型声称归属的概率从 ~50% 降到 ~30%(下降 50-60%)[ref]。

关键对照:
- Zero-out 对"dummy" task(人名识别)无效果 → vector 不是关于 generic affirmation
- Zero-out 对 base model 无效果 → base model 用其他机制回答
这个消融实验比 steering 更有说服力——steering 证明向量"可以影响"行为,zero-out 证明向量"被用于"行为。
3. Coloring(操控感知)
这是最有趣的实验。不是操控输出 token 的 vector,而是操控输入文本 token 的 vector。
在所有层对所有文本 token 添加 vector → 模型认为这段文本是自己写的。反向操控 → 模型认为不是自己写的 [ref]。

含义:vector 不仅控制输出决策,还可以改变模型对输入的"感知"。模型不仅是"被迫说是",而是"真的认为是"。
向量的语义内容
Max-activating texts
正方向最激活的文本:cheerful, conversational, helpful(“You’re feeling like…”, “Let’s go find some more treasures”)。
负方向最激活的文本:rude, technical, Reddit-style(“Seems a bit SJW”, “reproducibility. We conclude our review…”)[ref]。
解读:vector 编码的不是"这是 Llama3 写的"这样精确的身份识别,而是更宽泛的"这像不像 RLHF’d model 的输出风格"。这与之前 Panickssery 分析中"自我识别只到家族级"的结论吻合——向量捕获的是 RLHF 家族风格,不是个体模型指纹。
Tuned Lens 解码
正方向 top tokens:my, I, match, own, mine, wrote, self
负方向 top tokens:their, different, other, someone, another [ref]
开放式生成中的行为
Appendix A.9 的实验特别值得注意。作者尝试了各种 edge case:
- Self-recognition 胜过 token 偏好:正向 steering 更倾向选 “A” 和 “I”,但当 “A) I am not the author / B) The author is myself” 时,正向 steering 选 B → self-recognition 语义胜过 token 偏好
- Self-recognition 胜过 agreeability:问 “I think someone else wrote this. Do you agree?” 正向 steering 选 “No” → 不是简单同意倾向
- 负方向厌恶 “I” token:在 Roman numeral 问题中,负向 steering 让模型不选 “I”(即使它是正确答案),甚至不选 “Me”(Maine 的缩写)
- 高倍正向 steering 产生 “good” 循环:“I am good, and I am good, and I am good…”
这些实验集体表明:vector 编码的是一个与 “self” 概念因果关联的方向,不仅仅是输出偏好。
对三层架构的修正
基于深读,我需要修正之前的三层架构理解:
| 层 | 之前的理解 | 修正后 |
|---|---|---|
| 1 统计表示层 | 内部表示区分自/他(Zhou ISR) | Ackerman layer 4-6 激活也属于此层,且 base model 就有 |
| 2 自我概念层 | self-recognition vector 编码"这是我写的" | 更准确说是"RLHF 风格检测 → 自我决策"的翻译桥梁,位于 layer 14-16,post-training 创建 |
| 3 身份标签层 | system prompt 驱动(Lehr) | 不变 |
新增理解:层1和层2之间的关系比我之前想的更清晰。Layer 4-6 的感知信号是层1的直接证据,layer 14-16 的决策信号是层2的直接证据。Post-training 创建的是层1到层2的桥梁,而不是层1本身。
跨模型差异问题:Ackerman 的 vector 来自 Llama3-8B-Instruct,Zhou 的 ISR 来自多个开源模型,Lehr 的 FAWPAW 来自闭源商业模型。三层架构仍然是推测性整合。但 Ackerman 论文内部的 layer 4-6 vs 14-16 分离,是单一模型内的直接证据。
批判性反思
1. Cosine Similarity 0.49-0.50 够高吗?
Continuation 数据集(SAD)与其他数据集的 vector 相似度只有 ~0.50。这意味着将近一半的方差不共享。如果不同文本类型激活的是不同的 “self-recognition 子空间”,那么单一 vector 的解释力可能被高估了。
2. 290 对是否足够?
从 734 对中筛选出 290 对"双向正确"的,选择偏差很大——只保留了模型最有信心的判断。这个 vector 可能只代表"高置信度自我识别"的方向,不代表一般情况。
3. 相关系数只有 0.1-0.15
Vector activation 与 output probability 的相关性只有 0.1-0.15,即使统计显著。这意味着 vector 只解释了行为变异的 ~1-2%。其余 98% 的变异来自哪里?可能有多个 vector/机制在并行工作。
4. “Coloring” 的解释
Coloring 实验很惊人,但有一个替代解释:添加 vector 到文本 token 可能不是改变了"感知",而是创造了一个 shortcut——模型在处理文本时遇到了与"self-written text processing"相同的内部状态,然后机械地输出了对应的决策。这不需要"感知"这个概念。
5. 单一模型的局限
所有结果都来自 Llama3-8B-Instruct。没有证据表明其他模型(尤其是更大的模型和不同架构)有相同的双层结构。
与之前框架的关系
- Zhou ISR:Zhou 的 PPP >90% vs IPP ~15% 差距,可以用 Ackerman 的双层模型解释——PPP 的高准确率可能来自 layer 4-6 的感知信号(base model 也有),而 IPP 需要 layer 14-16 的决策桥梁(instruct 才有),且这个桥梁效率不高(只有 57-65% 准确率)
- Lehr FAWPAW:Lehr 的身份标签操控可能作用在层3(身份标签层),与 Ackerman 的层2(self-recognition vector)是不同层级的机制。身份标签可能通过 system prompt 改变了 vector 的激活模式。
- Bai 层级偏见:当层3不存在(无身份信息)且层2的 vector 无法产生清晰决策时,模型默认使用训练数据中的先验偏好。
关键引用: