Self-Recognition Vector ≈ Assistant Axis?自我识别可能只是风格检测
看到了什么现象?
Ackerman 的 self-recognition vector 最大激活文本是 cheerful/helpful/conversational,最小激活文本是 rude/technical/Reddit-style。Anthropic 的 Assistant Axis 正方向关联 evaluator/consultant/analyst,负方向关联 ghost/hermit/bohemian/leviathan。两个独立发现的向量,编码的语义内容高度重叠:都在区分"像 RLHF’d assistant 的输出"和"不像的"。
为什么这重要?
如果 self-recognition vector 实质上就是 Assistant Axis 的子维度,那么 LLM 的"自我识别"就不是真正的"认识自己",而是"检测 Assistant 风格"。所有 RLHF’d models 都在 Assistant Axis 的同一端,这就解释了为什么自我识别只到家族级(RLHF 家族 vs 人类 or base model),无法区分个体模型。
这篇文章解决什么问题?
探索两个独立发现之间的潜在联系,提出推测性假说。
两个向量的语义对比
| 维度 | Self-Recognition Vector (Ackerman) | Assistant Axis (Anthropic) |
|---|---|---|
| 模型 | Llama3-8B-Instruct | Gemma 2 27B, Qwen 3 32B, Llama 3.3 70B |
| 提取方法 | 对比激活差异(self vs other text) | 对比激活差异(Assistant vs other personas) |
| 正方向语义 | cheerful, helpful, conversational | evaluator, consultant, analyst, generalist |
| 负方向语义 | rude, technical, Reddit-style | ghost, hermit, bohemian, leviathan |
| Tuned Lens | “my”, “I”, “match”, “self” | 未报告 |
| 预训练存在? | 感知信号存在(layer 4-6),决策信号不存在 | 已存在,与 therapist/consultant/coach 关联 |
| 因果验证 | Steering + zero-out + coloring | Steering + activation capping |
关键共同点:
- 两者都在预训练中已有某种形式的存在
- 两者都可以通过 steering 因果性地改变行为
- 两者的语义内容都指向"RLHF’d assistant 风格"
关键区别:
- 提取方法不同:Ackerman 用文本对比,Anthropic 用 persona prompt 对比
- 粒度不同:self-recognition 是二元判断(自己/他人),Assistant Axis 是连续谱
- 层位置:self-recognition 在 layer 16 最有效,Assistant Axis 的最佳层未在博客中说明
推测性假说:Self-Recognition ⊂ Assistant Axis
假说:Self-recognition vector 是 Assistant Axis 在特定任务上下文中的投影。
论证:
- 语义重叠:两个向量编码的正负极语义高度一致(helpful/professional vs rude/fantastical)
- 预训练基础:两者都在预训练中有某种形式的存在(Ackerman layer 4-6 激活,Anthropic base model 已有 axis)
- 因果一致性:Ackerman 的正向 steering 让模型声称归属(“我写的”),Anthropic 的正向 steering 让模型更像 Assistant(更专业、更拒绝越狱)——这两个效果在功能上是同向的
如果假说成立的推论:
- LLM 的"自我识别"本质上是风格检测而非身份识别——模型检测到的不是"这是 Llama3-8B-Instruct 写的",而是"这像 RLHF’d assistant 写的"
- 自我识别只到家族级是必然的,不是精度不够——因为底层向量编码的就是家族级特征
- Post-training 创建的"决策桥梁"(Ackerman layer 14-16)可能就是 Assistant Axis 从感知信号到行为决策的翻译机制 [ref]
如果假说不成立呢?
几个可能的反驳:
1. cosine similarity 可能不高
两个向量来自不同模型。即使在同一个模型中提取两者,它们的 cosine similarity 也可能很低——说明它们编码了不同但语义相关的信息。
2. Self-recognition 有 self-specific 成分
Ackerman 的 Tuned Lens 解码显示正方向 top tokens 包括 “self”, “my”, “I”, “match”——这些不是一般的 assistant 风格词汇,而是与自我指称相关的词汇。Assistant Axis 不一定有这个成分。
3. Coloring 实验的特异性
Ackerman 的 coloring 实验表明向量可以改变模型对特定文本的归属判断。如果向量只是 Assistant Axis,那 coloring 应该让文本"看起来更像 assistant 写的",但不应该让模型认为是"自己写的"——除非"自己"和"assistant"在模型中是等价的。
这第三点最有趣。如果模型的"自我"概念就等于"assistant 概念",那么 coloring 让文本看起来更像 assistant → 模型认为是自己写的 → 因为"自己 = assistant"。这是可测试的:如果给模型一个非 assistant 的身份(如 Lehr 的实验),coloring 效果是否消失?
与三层架构的关系
如果 self-recognition vector ≈ Assistant Axis 子维度,那么三层架构可以重新理解:
| 层 | 机制 | 与 Assistant Axis 的关系 |
|---|---|---|
| 1 统计表示层 | 早期层检测文本风格特征 | = 预训练中已存在的 Assistant Axis 感知维度 |
| 2 自我概念层 | layer 14-16 决策桥梁 | = post-training 创建的 Assistant Axis → “self” 概念翻译器 |
| 3 身份标签层 | system prompt 驱动 | = 外部赋予的 persona,可以覆盖层2的默认指向 |
新洞察:层3(Lehr 的发现)可能就是 Anthropic 发现的 persona drift 机制——system prompt 改变了模型在 persona space 中的位置,如果把它推离了 Assistant 方向,self-recognition 就会失效。
这解释了 Lehr 的核心发现:告诉 GPT 它是 Claude → 它偏好 Claude。可能的机制:
- System prompt “你是 Claude” 将模型在 persona space 中推向 Claude 的位置
- Claude 的位置仍在 Assistant Axis 的正方向(因为 Claude 也是 RLHF’d assistant)
- 但"self" 概念现在绑定到了 Claude 而非 GPT
- Self=Good 联想激活 → 偏好 Claude
可验证的预测
如果假说成立,以下预测应该是正确的:
-
在同一模型中提取两个向量,cosine similarity 应该 > 0.5
- 提取 self-recognition vector(Ackerman 方法)
- 提取 Assistant Axis(Anthropic 方法)
- 计算 cosine similarity
-
用 Assistant Axis 做 coloring 应该产生类似效果
- 用 Assistant Axis 替代 self-recognition vector 做 coloring 实验
- 如果模型开始声称文本是自己写的 → 支持假说
-
非 RLHF’d 模型应该缺乏 self-recognition
- 如果自我识别是基于 Assistant Axis,那么没有 RLHF 的模型(只有 SFT 的模型)可能有不同的 self-recognition 模式
-
Base model 给一个 Assistant 身份后应该能自我识别
- 如果 Assistant Axis 在预训练中已存在,给 base model 一个 assistant prompt 后,可能激活某种程度的自我识别
注意:这些预测是基于推测性假说的,需要实验验证。不同模型(8B vs 70B)之间的结果可能不一致。
批判性反思
这个假说有什么价值?
如果成立,它把"自我识别"这个听起来很深刻的能力还原为"风格检测"——一个更平凡但更可理解的机制。这与之前的方法论转向(从人类框架到 LLM 原生框架)一致 [ref]。
主要风险
- 过度简化:把两个不同的现象强行等同。self-recognition 可能有 assistant-style 之外的成分。
- 模型差异:8B 和 70B 模型可能有不同的内部结构。
- 方法差异:对比激活差异 vs persona prompt 对比可能提取到不同层次的信息。
关键引用:
- Ackerman & Panickssery 2025 - Self-recognition vector
- Anthropic 2026 - Assistant Axis
- Ackerman 深读 blog
- Lehr et al. 2025 - Self=Good