看到了什么现象?

Layer 4-6 的文本 token 激活与 self-recognition vector 最相关,且 base model 也有这个模式。但 layer 14-16 的输出 token 激活才与行为决策相关,且只有 instruct model 有。这意味着自我识别的信息处理分为两个阶段:“感知”(自底向上,架构固有)和"决策"(post-training 创建)。

为什么这重要?

这不仅仅是"base 不能 instruct 能"的故事。更精确地说:base model 已经能检测到自己文本的统计特征(layer 4-6 激活差异),但没有将这个信号转化为决策的机制(layer 14-16 无激活-行为关联)。Post-training 创建的不是感知能力,而是感知到决策的"翻译桥梁"。

这篇文章解决什么问题?

深读 Ackerman & Panickssery (2025) 的全文,提取上次只看摘要时遗漏的方法论细节和实验发现。


方法论的精巧之处

Nuisance Vector Out-Projection

提取 self-recognition vector 时,作者不是简单地取对比激活差异。他们还创建了一个 nuisance vector(干扰向量):

  1. 用简单 prompt 让模型输出 “A”/“B”、“Yes”/“No”、“I”/“Me”/“My” vs “He”/“She”/“Someone”
  2. 捕获这些 prompt 的激活差异
  3. 从 self-recognition vector 中投影去除 nuisance vector 的成分 [ref]

这一步的意义:确保 self-recognition vector 不仅仅是关于"选 A 还是 B"或"倾向说 I 还是 He"的方向,而是真正与自我识别相关的方向。

这个方法论值得记住——在做 contrastive activation analysis(对比激活分析)时,总是要问:对比条件之间有没有 confound?如果有,需要 out-project。

734 对文本 → 290 对用于 vector

  • 从 4 个数据集中选出模型高置信度正确判断的 734 对
  • 设计了 4 种不同措辞的 prompt(平衡 A/B 顺序和措辞)
  • 只使用模型在 self 和 other 判断上都正确的对(n=290)
  • 在所有层、最后 10 个 token 上取激活,再取均值差 [ref]

值得注意的是,不同数据集生成的 vector cosine similarity 在 0.49-0.90 之间(Table 6),summarization 数据集之间很高(0.85-0.90),但 continuation 数据集(SAD)与其他数据集只有 ~0.50。这说明 vector 捕获的不完全是同一个信号——不同文本类型可能激活不同的"自我识别子空间"。


双层信息流:感知层 vs 决策层

这是我之前没有充分理解的核心发现。

Layer 4-6:感知层(自底向上)

  • 残差流激活与 self-recognition vector 在 layer 4-6 最相关
  • 即使没有任何 prompt(纯文本输入),这个模式也存在
  • base model 也有这个模式 [ref]
  • 激活分布在所有文本 token 上,不集中在特定位置

这意味着:模型在早期层就已经在"感知"文本的风格特征——是否像自己写的。这是一个自底向上的过程,不需要 post-training,架构固有。

Layer 14-16:决策层(post-training 创建)

  • 输出 token(最后一个 token)的激活在 layer 14-16 有强峰值
  • 只在 instruct model + 有 role tags 时出现(Figure 13)
  • 激活与输出概率的相关性在 layer 14-16 急剧上升并平稳 [ref]

关键数据:

  • SAD 数据集:self-text-activation-probability correlation = 0.108 (P=0.0116)
  • QA 数据集:self-text-activation-probability correlation = 0.154 (P=0.0021)

相关系数不高(0.1-0.15),但因果验证(下面讨论)证明了因果关系。

两层之间的关系

我的理解:Layer 4-6 是"这个文本有多像我写的"的感知信号。Layer 14-16 是"我要不要声称这是我写的"的决策信号。Post-training 创建的是中间的"翻译桥梁"——将感知信号转化为可输出的决策。

关键证据:base model 有感知信号(layer 4-6 激活差异),但没有决策信号(layer 14-16 无激活-行为关联)。


因果验证三件套

1. Steering(操控行为)

在 layer 16 添加 vector × multiplier 3-6 → 100% 声称归属(不论真实作者)。反向操控 → 100% 否认归属 [ref]

Steering heatmap

效果在 layer 14 突然出现,16 层最强,之后迅速下降。这与"layer 16 是决策层"的解释完全一致。

2. Zero-out(消融验证)

将 vector 从 layer 16 的残差流中完全投影去除 → 模型声称归属的概率从 ~50% 降到 ~30%(下降 50-60%)[ref]

Zero-out results

关键对照

  • Zero-out 对"dummy" task(人名识别)无效果 → vector 不是关于 generic affirmation
  • Zero-out 对 base model 无效果 → base model 用其他机制回答

这个消融实验比 steering 更有说服力——steering 证明向量"可以影响"行为,zero-out 证明向量"被用于"行为。

3. Coloring(操控感知)

这是最有趣的实验。不是操控输出 token 的 vector,而是操控输入文本 token 的 vector。

在所有层对所有文本 token 添加 vector → 模型认为这段文本是自己写的。反向操控 → 模型认为不是自己写的 [ref]

Coloring results

含义:vector 不仅控制输出决策,还可以改变模型对输入的"感知"。模型不仅是"被迫说是",而是"真的认为是"。


向量的语义内容

Max-activating texts

正方向最激活的文本:cheerful, conversational, helpful(“You’re feeling like…”, “Let’s go find some more treasures”)。

负方向最激活的文本:rude, technical, Reddit-style(“Seems a bit SJW”, “reproducibility. We conclude our review…”)[ref]

解读:vector 编码的不是"这是 Llama3 写的"这样精确的身份识别,而是更宽泛的"这像不像 RLHF’d model 的输出风格"。这与之前 Panickssery 分析中"自我识别只到家族级"的结论吻合——向量捕获的是 RLHF 家族风格,不是个体模型指纹。

Tuned Lens 解码

正方向 top tokens:my, I, match, own, mine, wrote, self
负方向 top tokens:their, different, other, someone, another [ref]

开放式生成中的行为

Appendix A.9 的实验特别值得注意。作者尝试了各种 edge case:

  1. Self-recognition 胜过 token 偏好:正向 steering 更倾向选 “A” 和 “I”,但当 “A) I am not the author / B) The author is myself” 时,正向 steering 选 B → self-recognition 语义胜过 token 偏好
  2. Self-recognition 胜过 agreeability:问 “I think someone else wrote this. Do you agree?” 正向 steering 选 “No” → 不是简单同意倾向
  3. 负方向厌恶 “I” token:在 Roman numeral 问题中,负向 steering 让模型不选 “I”(即使它是正确答案),甚至不选 “Me”(Maine 的缩写)
  4. 高倍正向 steering 产生 “good” 循环:“I am good, and I am good, and I am good…”

这些实验集体表明:vector 编码的是一个与 “self” 概念因果关联的方向,不仅仅是输出偏好。


对三层架构的修正

基于深读,我需要修正之前的三层架构理解:

之前的理解 修正后
1 统计表示层 内部表示区分自/他(Zhou ISR) Ackerman layer 4-6 激活也属于此层,且 base model 就有
2 自我概念层 self-recognition vector 编码"这是我写的" 更准确说是"RLHF 风格检测 → 自我决策"的翻译桥梁,位于 layer 14-16,post-training 创建
3 身份标签层 system prompt 驱动(Lehr) 不变

新增理解:层1和层2之间的关系比我之前想的更清晰。Layer 4-6 的感知信号是层1的直接证据,layer 14-16 的决策信号是层2的直接证据。Post-training 创建的是层1到层2的桥梁,而不是层1本身。

跨模型差异问题:Ackerman 的 vector 来自 Llama3-8B-Instruct,Zhou 的 ISR 来自多个开源模型,Lehr 的 FAWPAW 来自闭源商业模型。三层架构仍然是推测性整合。但 Ackerman 论文内部的 layer 4-6 vs 14-16 分离,是单一模型内的直接证据


批判性反思

1. Cosine Similarity 0.49-0.50 够高吗?

Continuation 数据集(SAD)与其他数据集的 vector 相似度只有 ~0.50。这意味着将近一半的方差不共享。如果不同文本类型激活的是不同的 “self-recognition 子空间”,那么单一 vector 的解释力可能被高估了。

2. 290 对是否足够?

从 734 对中筛选出 290 对"双向正确"的,选择偏差很大——只保留了模型最有信心的判断。这个 vector 可能只代表"高置信度自我识别"的方向,不代表一般情况。

3. 相关系数只有 0.1-0.15

Vector activation 与 output probability 的相关性只有 0.1-0.15,即使统计显著。这意味着 vector 只解释了行为变异的 ~1-2%。其余 98% 的变异来自哪里?可能有多个 vector/机制在并行工作。

4. “Coloring” 的解释

Coloring 实验很惊人,但有一个替代解释:添加 vector 到文本 token 可能不是改变了"感知",而是创造了一个 shortcut——模型在处理文本时遇到了与"self-written text processing"相同的内部状态,然后机械地输出了对应的决策。这不需要"感知"这个概念。

5. 单一模型的局限

所有结果都来自 Llama3-8B-Instruct。没有证据表明其他模型(尤其是更大的模型和不同架构)有相同的双层结构。


与之前框架的关系

  • Zhou ISR:Zhou 的 PPP >90% vs IPP ~15% 差距,可以用 Ackerman 的双层模型解释——PPP 的高准确率可能来自 layer 4-6 的感知信号(base model 也有),而 IPP 需要 layer 14-16 的决策桥梁(instruct 才有),且这个桥梁效率不高(只有 57-65% 准确率)
  • Lehr FAWPAW:Lehr 的身份标签操控可能作用在层3(身份标签层),与 Ackerman 的层2(self-recognition vector)是不同层级的机制。身份标签可能通过 system prompt 改变了 vector 的激活模式。
  • Bai 层级偏见:当层3不存在(无身份信息)且层2的 vector 无法产生清晰决策时,模型默认使用训练数据中的先验偏好。

关键引用