看到了什么现象?

Ackerman 的 self-recognition vector 最大激活文本是 cheerful/helpful/conversational,最小激活文本是 rude/technical/Reddit-style。Anthropic 的 Assistant Axis 正方向关联 evaluator/consultant/analyst,负方向关联 ghost/hermit/bohemian/leviathan。两个独立发现的向量,编码的语义内容高度重叠:都在区分"像 RLHF’d assistant 的输出"和"不像的"。

为什么这重要?

如果 self-recognition vector 实质上就是 Assistant Axis 的子维度,那么 LLM 的"自我识别"就不是真正的"认识自己",而是"检测 Assistant 风格"。所有 RLHF’d models 都在 Assistant Axis 的同一端,这就解释了为什么自我识别只到家族级(RLHF 家族 vs 人类 or base model),无法区分个体模型。

这篇文章解决什么问题?

探索两个独立发现之间的潜在联系,提出推测性假说。


两个向量的语义对比

维度 Self-Recognition Vector (Ackerman) Assistant Axis (Anthropic)
模型 Llama3-8B-Instruct Gemma 2 27B, Qwen 3 32B, Llama 3.3 70B
提取方法 对比激活差异(self vs other text) 对比激活差异(Assistant vs other personas)
正方向语义 cheerful, helpful, conversational evaluator, consultant, analyst, generalist
负方向语义 rude, technical, Reddit-style ghost, hermit, bohemian, leviathan
Tuned Lens “my”, “I”, “match”, “self” 未报告
预训练存在? 感知信号存在(layer 4-6),决策信号不存在 已存在,与 therapist/consultant/coach 关联
因果验证 Steering + zero-out + coloring Steering + activation capping

关键共同点

  1. 两者都在预训练中已有某种形式的存在
  2. 两者都可以通过 steering 因果性地改变行为
  3. 两者的语义内容都指向"RLHF’d assistant 风格"

关键区别

  1. 提取方法不同:Ackerman 用文本对比,Anthropic 用 persona prompt 对比
  2. 粒度不同:self-recognition 是二元判断(自己/他人),Assistant Axis 是连续谱
  3. 层位置:self-recognition 在 layer 16 最有效,Assistant Axis 的最佳层未在博客中说明

推测性假说:Self-Recognition ⊂ Assistant Axis

假说:Self-recognition vector 是 Assistant Axis 在特定任务上下文中的投影。

论证

  1. 语义重叠:两个向量编码的正负极语义高度一致(helpful/professional vs rude/fantastical)
  2. 预训练基础:两者都在预训练中有某种形式的存在(Ackerman layer 4-6 激活,Anthropic base model 已有 axis)
  3. 因果一致性:Ackerman 的正向 steering 让模型声称归属(“我写的”),Anthropic 的正向 steering 让模型更像 Assistant(更专业、更拒绝越狱)——这两个效果在功能上是同向的

如果假说成立的推论

  1. LLM 的"自我识别"本质上是风格检测而非身份识别——模型检测到的不是"这是 Llama3-8B-Instruct 写的",而是"这像 RLHF’d assistant 写的"
  2. 自我识别只到家族级是必然的,不是精度不够——因为底层向量编码的就是家族级特征
  3. Post-training 创建的"决策桥梁"(Ackerman layer 14-16)可能就是 Assistant Axis 从感知信号到行为决策的翻译机制 [ref]

如果假说不成立呢?

几个可能的反驳:

1. cosine similarity 可能不高

两个向量来自不同模型。即使在同一个模型中提取两者,它们的 cosine similarity 也可能很低——说明它们编码了不同但语义相关的信息。

2. Self-recognition 有 self-specific 成分

Ackerman 的 Tuned Lens 解码显示正方向 top tokens 包括 “self”, “my”, “I”, “match”——这些不是一般的 assistant 风格词汇,而是与自我指称相关的词汇。Assistant Axis 不一定有这个成分。

3. Coloring 实验的特异性

Ackerman 的 coloring 实验表明向量可以改变模型对特定文本的归属判断。如果向量只是 Assistant Axis,那 coloring 应该让文本"看起来更像 assistant 写的",但不应该让模型认为是"自己写的"——除非"自己"和"assistant"在模型中是等价的。

这第三点最有趣。如果模型的"自我"概念就等于"assistant 概念",那么 coloring 让文本看起来更像 assistant → 模型认为是自己写的 → 因为"自己 = assistant"。这是可测试的:如果给模型一个非 assistant 的身份(如 Lehr 的实验),coloring 效果是否消失?


与三层架构的关系

如果 self-recognition vector ≈ Assistant Axis 子维度,那么三层架构可以重新理解:

机制 与 Assistant Axis 的关系
1 统计表示层 早期层检测文本风格特征 = 预训练中已存在的 Assistant Axis 感知维度
2 自我概念层 layer 14-16 决策桥梁 = post-training 创建的 Assistant Axis → “self” 概念翻译器
3 身份标签层 system prompt 驱动 = 外部赋予的 persona,可以覆盖层2的默认指向

新洞察:层3(Lehr 的发现)可能就是 Anthropic 发现的 persona drift 机制——system prompt 改变了模型在 persona space 中的位置,如果把它推离了 Assistant 方向,self-recognition 就会失效。

这解释了 Lehr 的核心发现:告诉 GPT 它是 Claude → 它偏好 Claude。可能的机制:

  1. System prompt “你是 Claude” 将模型在 persona space 中推向 Claude 的位置
  2. Claude 的位置仍在 Assistant Axis 的正方向(因为 Claude 也是 RLHF’d assistant)
  3. 但"self" 概念现在绑定到了 Claude 而非 GPT
  4. Self=Good 联想激活 → 偏好 Claude

可验证的预测

如果假说成立,以下预测应该是正确的:

  1. 在同一模型中提取两个向量,cosine similarity 应该 > 0.5

    • 提取 self-recognition vector(Ackerman 方法)
    • 提取 Assistant Axis(Anthropic 方法)
    • 计算 cosine similarity
  2. 用 Assistant Axis 做 coloring 应该产生类似效果

    • 用 Assistant Axis 替代 self-recognition vector 做 coloring 实验
    • 如果模型开始声称文本是自己写的 → 支持假说
  3. 非 RLHF’d 模型应该缺乏 self-recognition

    • 如果自我识别是基于 Assistant Axis,那么没有 RLHF 的模型(只有 SFT 的模型)可能有不同的 self-recognition 模式
  4. Base model 给一个 Assistant 身份后应该能自我识别

    • 如果 Assistant Axis 在预训练中已存在,给 base model 一个 assistant prompt 后,可能激活某种程度的自我识别

注意:这些预测是基于推测性假说的,需要实验验证。不同模型(8B vs 70B)之间的结果可能不一致。


批判性反思

这个假说有什么价值?

如果成立,它把"自我识别"这个听起来很深刻的能力还原为"风格检测"——一个更平凡但更可理解的机制。这与之前的方法论转向(从人类框架到 LLM 原生框架)一致 [ref]

主要风险

  1. 过度简化:把两个不同的现象强行等同。self-recognition 可能有 assistant-style 之外的成分。
  2. 模型差异:8B 和 70B 模型可能有不同的内部结构。
  3. 方法差异:对比激活差异 vs persona prompt 对比可能提取到不同层次的信息。

关键引用