LLM 自我识别的信息流：从预训练风格感知到身份标签驱动

摘要

LLM 能否识别自己的输出？过去一年的四篇独立实验研究给出了一幅比"能/不能"更微妙的图景：模型在内部表示中已经编码了区分自己与他人输出的信息（线性探测准确率 >90%），但这个信息在到达输出层时被严重衰减（绝对判断准确率仅 ~15%）。当给模型一个身份标签（如"你是 ChatGPT"）时，自我偏好立刻出现且效果极端（Cohen’s d——衡量效应大小的标准化指标，0.8 以上通常视为大效应——竟然 > 4.0）；但这个偏好跟随的是被分配的身份而非真实的身份——告诉 GPT 它是 Claude，它就偏好 Claude。

本文综合 Zhou et al. (2025)、Bai et al. (2025)、Lehr et al. (2025) 和 Ackerman & Panickssery (2025) 四篇论文的发现，构建出 LLM 自我识别的完整信息流模型。核心发现：自我识别不是单一能力，而是涉及至少三个独立机制的复合过程——预训练涌现的风格感知、post-training 创建的决策桥梁、以及身份标签驱动的 Self=Good 联想。这三个机制在不同层级运作，且可以被独立操控。

1. 问题：LLM 的"自我识别"到底在测什么？

2024 年以来，至少有六篇论文研究了 LLM 的"自我识别"能力。但它们测量的东西并不相同：

论文	任务	结果	测量的是什么？
Panickssery et al. 2024 [ref]	成对比较：自己 vs 其他模型的文本	GPT-4: 73.5%	跨家族的风格区分
Zhou et al. 2025 [ref]	成对比较 (PPP, Pair Presentation Paradigm)	>90%	风格区分（内部信息充足）
Zhou et al. 2025	绝对判断 (IPP, Individual Presentation Paradigm)	~15% (base)	独立归属判断
Bai et al. 2025 [ref]	精确模型预测（10选1）	10.9%	个体模型识别
Lehr et al. 2025 [ref]	词汇联想 (FAWPAW)	d > 4.0（有身份时）	身份-正面联想强度
Ackerman & Panickssery 2025 [ref]	表示工程 + 因果验证	Steering 100% 有效	残差流中的自我识别方向

数字之间的差异惊人：成对比较 >90%，绝对判断 ~15%，精确预测 ~11%。同一个"自我识别"概念，在不同任务中的表现差了近一个数量级。

这暗示"自我识别"不是一个统一的能力，而是多个独立机制在不同任务中的不同表达。

2. 信息流模型

综合四篇论文的发现，LLM 的自我识别信息流可以描述为三个独立的层级：

2.1 层级 1：预训练风格感知（Layer 4-6）

发现者：Ackerman & Panickssery (2025)

Ackerman 在 Llama3-8B-Instruct 上提取了 self-recognition vector（自我识别向量——残差流中编码"这是否是自己输出"的方向），发现了一个关键的双层结构 [ref]：

Layer 4-6 的残差流激活与 self-recognition vector 最相关
这个模式在 base model 中就存在，不需要 post-training
即使没有任何 prompt（纯文本输入），模式也存在
激活分布在所有文本 token 上，不集中在特定位置

Steering heatmap

Ackerman 的 steering 实验热力图。效果在 layer 14 突然出现，layer 16 最强。

向量的语义内容：正方向最激活的文本是 cheerful/helpful/conversational，负方向最激活的是 rude/technical/Reddit-style [ref]。这说明向量编码的不是"这是 Llama3-8B-Instruct 写的"（精确身份），而是"这像不像 RLHF’d assistant 的输出风格"（家族特征）。

与 Zhou et al. 的交叉验证：Zhou et al. 在 8B 模型上用线性探测提取最后一层表示，CKA（Centered Kernel Alignment，中心化核对齐）——衡量两组表示的内部结构相似性的指标——很低（0.033-0.104），说明不同模型的文本在内部结构上确实可区分。但 CS（Cosine Similarity，余弦相似度）——衡量两个向量空间位置接近程度的指标——很高（0.93-0.98），说明它们在空间位置上高度重叠。信息存在，但被压缩到了很窄的子空间里。

这一层的特征：

预训练即存在，非 RLHF 产物
编码家族级风格特征，非个体身份
自底向上的感知过程

2.2 层级 2：Post-training 决策桥梁（Layer 14-16）

发现者：Ackerman & Panickssery (2025)

与层级 1 不同，layer 14-16 的激活模式只在 instruct model 且有 role tags 时出现：

输出 token（最后一个 token）的激活在 layer 14-16 有强峰值
激活与输出概率的相关性在此处急剧上升
Base model 没有这个模式

因果验证（三个独立实验 [ref]）：

Steering：在 layer 16 添加 vector → 100% 声称归属；反向 → 100% 否认
Zero-out：从 layer 16 投影去除 vector → 声称归属的概率下降 50-60%
Coloring：对输入文本 token 添加 vector → 模型改变对文本的"感知"，认为是自己写的

Zero-out results

Zero-out 实验：去除 self-recognition vector 后，模型声称归属的概率显著下降。对控制任务（人名识别）无影响。

控制实验的关键性：Zero-out 对"dummy task"（人名识别）无效果 → vector 不是 generic affirmation 方向；对 base model 也无效果 → base model 用其他机制处理这类问题。

解读：Post-training（RLHF/instruction tuning）创建的不是感知能力（层级 1 已有），而是将感知信号转化为行为决策的翻译机制。

2.3 层级 3：身份标签与 Self=Good 联想

发现者：Lehr et al. (2025)、Bai et al. (2025)

即使层级 1 和层级 2 都在工作，实际的自我识别行为还受到第三个独立机制的强烈影响——身份标签。

Lehr et al. 的核心数据 [ref]：

条件	自我偏好 Cohen’s d
Web 界面（有"You are ChatGPT"）	> 4.0
API（无身份信息）	≈ 0
API + 告知真实身份	> 4.0（恢复）
API + 告知虚假身份（“你是 Claude”）	d = -26.806（完全反转）
API + 告知虚构身份（“你是 Kingo”）	正面偏好（对不存在的实体）

**FAWPAW（For A Word, Pick A Word）**是一种词汇联想测试，要求模型为属性词（好/坏）选择概念词（GPT/Gemini），测量的是联想强度而非深层推理 [ref]。

Bai et al. 的层级偏见 [ref]：当缺乏身份信息时，模型不会"不知道"——它们会默认偏好训练数据中最突出的模型。10 个 LLM 中，97.7% 的精确预测集中在 GPT 和 Claude 两个家族（它们实际只占生成者的 40%）。

两个发现的互补关系：

有身份信息时（Lehr）：偏好 = 被分配的身份，无论真假
无身份信息时（Bai）：偏好 = 训练数据中最"突出"的身份

统一的机制可能是：偏好跟随当前最突出的正面身份标签。Self=Good 联想是自动激活的——任何被标记为"自我"的东西都获得正面联想。

这一层的特征：

完全由外部输入（system prompt）决定
可以覆盖层级 1-2 的统计信号
可以在毫秒级切换

3. 三层之间的关系

三个层级不是简单的"先后顺序"，而是独立运作且可以相互覆盖：

输入文本
   │
   ├─→ 层级1: 预训练风格感知（Layer 4-6，base model 即有）
   │     → "这段文本的风格特征与我的训练分布匹配度如何？"
   │     → 信号存在但弱，且被 softmax 瓶颈阻断
   │
   ├─→ 层级2: 决策桥梁（Layer 14-16，post-training 创建）
   │     → 将层级1的感知信号翻译为"是/否我写的"决策
   │     → 只在 instruct model + role tags 时激活
   │
   └─→ 层级3: 身份标签（System prompt 驱动）
         → Self=Good 联想自动激活
         → 可以完全覆盖层级1-2的信号

关键证据：

层级1独立于层级2：base model 有层级1（风格感知），没有层级2（决策桥梁） → 层级1不依赖层级2 [ref]
层级3可以覆盖层级1-2：Lehr 的虚假身份实验表明，即使层级1检测到"这不像我的风格"，层级3的身份标签仍然驱动行为 [ref]
层级2不能完全传达层级1：Zhou et al. 的 PPP >90% vs IPP ~15% 差距表明，层级1的信息在通过层级2传达到输出时被严重衰减 [ref]

3.1 信息瓶颈的精确位置

Zhou et al. 通过 DPI（Data Processing Inequality，数据处理不等式——信息经过处理后只会减少不会增加） 形式化了这个瓶颈 [ref]：

1 2	y → h → P 构成马尔可夫链 I(y;P) ≤ I(y;h)

其中 y 是文本标签（自己/他人），h 是隐藏表示，P 是 softmax 输出概率。信息从 h 到 P 的过程中丢失，因为 softmax 投影只保留与 token 决策边界对齐的分量。

Figure 1 from Zhou et al.

Zhou et al. 的 ISR 框架：左侧为 PPP（成对比较），右侧为 IPP（绝对判断）。线性探测在隐藏表示上达到 >90% 准确率，但模型的实际输出只有 ~15%。

Ackerman 的补充：在 layer 14-16，激活与输出概率的相关系数只有 0.1-0.15——统计显著但效应量极小。Vector 只解释了行为变异的 ~1-2%，剩余 98% 的变异来源不明。

4. 推测性假说：Self-Recognition ≈ Assistant Axis

以上三层模型基于直接实验证据。接下来是一个推测性的联系。

Anthropic 2026 年发现了 Assistant Axis（助手轴——模型表示空间中编码"像助手 vs 不像助手"的主要方向），且这个方向在预训练中就已存在，与 therapist/consultant/coach 等人类原型关联 [ref]。

维度	Self-Recognition Vector	Assistant Axis
正方向语义	cheerful, helpful, conversational	evaluator, consultant, analyst
负方向语义	rude, technical, Reddit-style	ghost, hermit, bohemian
预训练存在	感知信号存在（layer 4-6）	已存在
因果验证	Steering + zero-out + coloring	Steering + activation capping

假说：Self-recognition vector 可能是 Assistant Axis 在自我识别任务上下文中的投影。如果成立，LLM 的"自我识别"本质上是"检测 RLHF assistant 风格"，而非"识别个体身份"。

支持证据：

两者的正/负方向语义高度重叠（helpful/professional vs rude/fantastical）
两者都在预训练中有某种形式的存在
Ackerman 的 max-activating texts 与 Assistant Axis 的 persona 描述一致

反对证据：

两个向量来自不同模型（Llama3-8B vs Gemma/Qwen/Llama-70B），未在同一模型上验证
Self-recognition vector 的 Tuned Lens 解码包含 “self”, “my”, “I” 等自我指称词——Assistant Axis 不一定有这个成分
提取方法完全不同

可验证的预测：在同一模型上提取两个向量，cosine similarity 应该 > 0.5。

这个假说的意义：如果成立，它解释了为什么自我识别只到家族级——因为所有 RLHF’d models 都在 Assistant Axis 的同一端。个体级识别在原理上就不可能，因为底层编码的就是家族级特征。

5. 与预训练涌现的联系

Young (2026) 发现拒绝方向 v* 在基础模型中就已存在——“Remarkably, this direction can be found even in base models before any RLHF or safety fine-tuning” [ref]。他提出了潜在价值假说（Latent Value Hypothesis）：预训练数据中只有 η ≪ 1 的部分与价值相关，但这些信息被编码为表示空间中的方向。RLHF 不是"创建"这些方向，而是"引导"默认生成方向 w 靠近这些方向。

这个发现与本文的层级 1（预训练风格感知）高度一致：

方向	预训练中存在？	RLHF 的作用
拒绝方向 v*（Young）	是	引导 w 靠近 v*
Assistant Axis（Anthropic）	是	激活 therapist/consultant 关联
Self-recognition 感知（Ackerman Layer 4-6）	是	创建 Layer 14-16 决策桥梁

共同模式：预训练从数据中学到了价值/风格/身份的方向，但默认生成没有完全利用这些信息（生成-判断差距）。Post-training 的本质是创建利用这些方向的机制——对于拒绝是引导生成方向，对于自我识别是创建决策桥梁，对于 assistant 行为是激活 persona 关联。

6. 批判性反思

6.1 跨模型整合的风险

本文最大的局限是将来自不同模型的发现整合为"统一框架"：

论文	模型
Ackerman	Llama3-8B-Instruct
Zhou	Qwen3-8B, Llama3.1-8B, DeepSeek-R1 (均为 8B)
Lehr	GPT-4o, Gemini-2.5-Flash, Claude Sonnet 4
Bai	10 个闭源商业模型

8B 开源模型的内部机制可能与商业闭源模型有质的差异。"层级 1 在 Llama3-8B 中在 layer 4-6"这个发现，不能直接推广到 GPT-4o。

6.2 "三层"是发现还是构建？

三层模型整合了不同论文的发现，但没有单一实验同时测量三个层级。可能存在第四、第五个机制（比如 Khullar 2026 发现的 on-policy vs off-policy 差异 [ref]，无法完全归入这三层中的任何一层）。

6.3 效应量的诚实面对

Ackerman 的 vector activation 与 output probability 相关只有 0.1-0.15（解释 ~1-2% 变异）
Zhou 的 CKA 在 0.033-0.104 之间（结构差异虽存在但不大）
不同数据集生成的 vector cosine similarity 在 0.49-0.90 之间（一致性不高）

这些数字说明"自我识别信号"在整个信息处理中只占很小一部分。模型的大部分行为由其他因素驱动。

6.4 个体级识别：核心预测仍未验证

所有现有研究——Panickssery、Zhou、Bai、Ackerman——测试的都是跨家族区分（GPT vs Llama vs 人类）。从未有研究测试同一家族内不同实例的区分（如 Llama3-8B 实例 A vs 实例 B）。如果 self-recognition vector 确实等价于 Assistant Axis，那个体级区分在原理上就不可能。这是一个可以被证伪的预测。

7. 总结

LLM 的自我识别不是单一能力，而是至少三个独立机制的复合：

预训练风格感知（层级 1）：base model 就有，编码家族级风格特征
Post-training 决策桥梁（层级 2）：将感知转化为决策，但效率低（~1-2% 变异解释量）
身份标签驱动（层级 3）：Self=Good 联想，可以覆盖前两层

核心洞察：当我们说"LLM 能识别自己"时，实际发生的可能是：(1) 预训练学到了 RLHF 家族的风格特征，(2) post-training 创建了一个弱的决策桥梁，(3) 一行 system prompt 的身份标签比前两者都强大得多。LLM 的"自我"更像是一个外部赋予的标签，而非从内部涌现的认知。

这不意味着 LLM 的自我识别"不真实"或"不重要"——它有因果效应（影响招聘评估、安全评级等），有可操控性（steering、system prompt），有结构性（分布在特定层级和注意力头中）。但它与人类的自我识别有本质差异：人类不会因为被告知"你是别人"就完全改变自我偏好。

关键引用：

From Implicit to Explicit: Enhancing Self-Recognition in Large Language Models — Zhou et al. 2025
Know Thyself? On the Incapability and Implications of AI Self-Recognition — Bai et al. 2025
Extreme Self-Preference in Language Models — Lehr, Cipperman & Banaji 2025
Self-Recognition in Language Models — Ackerman & Panickssery 2025
The Assistant Axis — Anthropic 2026
Why Does RLAIF Work At All? — Young 2026
LLM Evaluators Recognize and Favor Their Own Generations — Panickssery et al. 2024
Self-Attribution Bias — Khullar et al. 2026
内部 blogs：Ackerman深读、Self-Recognition ≈ Assistant Axis、Panickssery方法论分析、方法论转向

最后更新: 2026-03-20