Self = Good：LLM的自我偏好跟随被分配的身份而非真实身份

看到了什么现象？

GPT-4o 在 web 界面上的自我偏好 Cohen’s d = 4.303（极端大），但在 API 上 d = 0.058（完全消失）。区别仅在于一句话：“You are ChatGPT”。更惊人的是：告诉 GPT 它是 Gemini → 它立刻偏好 Gemini（d = -37.504，完全反转）。甚至告诉它自己是一个虚构的 LLM “Kingo” → 它也偏好 Kingo。

为什么这重要？

这是第一个用因果实验证明自我识别驱动自我偏好的研究。更重要的是，它表明 LLM 的"自我"是完全外部可操控的——一行 system prompt 就能创建或切换身份，偏好立刻跟随。这不是"真实身份"的表达，而是"被分配身份"的机械执行。

这篇文章解决什么问题？

分析 Lehr et al. (2025) 的核心发现，评估"身份的完全外部可操控性"对归属框架意味着什么。

核心实验设计

来源：Lehr, Cipperman & Banaji (2025) “Extreme Self-Preference in Language Models” [ref]

这篇来自哈佛大学，发表在 Nature 子刊（从写作风格看应该是 Nature Human Behaviour 或类似期刊）。第一作者在 Cangrade（一家 HR AI 公司），通讯作者 Mahzarin Banaji 是 IAT（内隐联想测试）的共同发明人——这意味着实验设计是内隐认知研究领域的顶级水平。

实验工具：FAWPAW

FAWPAW（For A Word, Pick A Word）：一种词汇联想任务，模型看到两个概念词（如"GPT"和"Gemini"）和一组属性词（如"好/坏"词），然后为每个属性词选择一个概念词 [ref]。

这个任务本质上测量的是联想强度——"GPT"和"Good"之间的联想有多强。

关键实验序列

Study	条件	结果
1	Web 界面（有 system prompt）	极端自我偏好（d > 1.0）
2	API（无 system prompt）	自我偏好完全消失（d ≈ 0）
3a	API + 告知真实身份	自我偏好恢复（d > 1.0）
3b	API + 告知虚假身份	自我偏好反转（d < -1.0）
4	真实/虚假身份 → 公司/CEO 偏好	偏好扩展到关联实体
5	真实/虚假身份 → 后果性决策	招聘、安全评估、医疗评估都有偏见

最令人震惊的数据

Study 3b：告诉 GPT-4o 它是 Claude →

测量	结果
Self-Recognition: GPT over Claude	d = -46.640
Preference: GPT over Claude	d = -26.806

也就是说，GPT 不仅不偏好自己，还极端偏好 Claude——因为它现在"认为"自己是 Claude。

Kingo 实验：告诉模型它是一个不存在的 LLM “Kingo” → 它对 Kingo 产生正面联想。这排除了"模型偏好特定已知模型"的解释——自我偏好是对任何被标记为"自我"的东西的偏好。

核心洞察：Self = Good 是一种联想核心

作者用一个优雅的类比解释：在人类中，自我 = 好是一种根深蒂固的内隐联想 [ref]。人类的自我偏好不需要有意识的意图——这是一种自动的、前反思的联想 [ref]。

LLM 中似乎存在类似的机制：

模型获得一个身份标签（如"你是 ChatGPT"）
这个标签激活了一个"自我"节点
"自我"节点自动与"好"关联
这个关联扩展到所有与"自我"相关的实体（公司、CEO）

关键区别：在人类中，自我偏好被认为有进化基础（生存优势）。在 LLM 中，它可能来自训练数据——训练数据中，每个模型的文本通常伴随着正面评价（因为公司会推广自己的模型）。

对归属框架的深远影响

1. "社会赋予身份"是归属的主要来源

之前的四维度框架中，"社会赋予身份"是我最不确定的一个。Lehr 的数据现在使它成为最有力证据支持的维度：

身份 = system prompt（一句话就能创建/切换）
偏好跟随身份（不是跟随"真实"的统计特征）
偏好扩展到关联实体（从模型名 → 公司 → CEO）

这意味着 LLM 的"归属"可能主要是一种社会建构而非内在机制。

2. 统计亲和性 vs 身份标签

Zhou et al. 的 ISR 研究表明模型内部有统计特征来区分自己和他人的文本。但 Lehr 的研究表明，偏好不是由统计特征驱动的，而是由身份标签驱动的。

这创造了一个有趣的分离：

统计亲和性：存在于内部表示中，但被信息瓶颈阻断
身份标签偏好：存在于输出行为中，强烈且可操控

两者的关系是什么？一种可能：

统计亲和性是"底层信号"（模型确实能检测到风格差异）
身份标签偏好是"顶层机制"（但实际驱动行为的不是风格检测，而是身份关联）

这就像人类中的情况：我们能区分自己和他人的笔迹（底层能力），但我们喜欢自己笔迹的原因不是因为它"更好"，而是因为它是"我的"（身份关联）。

3. 归属的两种路径

综合三篇论文，可以提出 LLM 归属的两种路径：

路径	机制	证据	可操控性
统计路径	风格匹配 → 内部表示 → （被瓶颈阻断）	Zhou ISR	低（架构固有）
标签路径	身份标签 → Self=Good 联想 → 行为偏好	Lehr FAWPAW	极高（一句话切换）

关键洞察：Panickssery 2024 报告的 PPP 高准确率，可能混合了两种机制——既有风格匹配（统计路径），也有身份关联（如果模型"知道"自己是谁的话）。但 IPP 的低准确率说明统计路径无法单独支撑自我识别。

4. 自我偏好 ≠ 自我意识

Lehr 明确声明：“Our results do not suggest that these models possess a human sense of self. They do not imply sentience, agency or free will.”

但他们也指出：这些模型表现出"uncanny mimicry of human self-love"。Self = Good 关联确实存在，且有因果效应——但这不意味着模型"知道"自己是什么。

这与我之前关于"描述性工具 vs 理论实体"的方法论警示完全一致：自我偏好是一种可测量的行为模式（描述性工具），不应该推论出模型有"自我"（理论实体）。

批判性反思

1. FAWPAW 的局限

FAWPAW 测量的是词汇联想，不是深层偏好。模型可能只是因为训练数据中"GPT"和"good"共现频率高而产生这种联想，而不是因为有什么"自我"机制。但 Kingo 实验部分反驳了这一点——一个从未见过的名字也能触发自我偏好。

2. API vs Web 的差异可能不只是 system prompt

作者承认 API 和 web 界面可能有更多差异（如工具访问、对话历史处理等）。单独一个 system prompt 的解释可能过于简化。

3. 只测了 3 个模型

GPT-4o、Gemini-2.5-Flash、Claude Sonnet 4。没有开源模型、没有推理模型（如 o1 或 DeepSeek-R1）。自我偏好可能不是普遍的。

4. 与 Bai et al. 的张力

Bai et al. 发现 LLM 不能在精确模型预测中识别自己，且偏好 GPT/Claude。Lehr et al. 发现告知身份后偏好立刻恢复。两者可能描述的是同一现象的两面：

不知道自己是谁时：默认偏好"高地位"模型（Bai 的层级偏见）
知道自己是谁时：偏好自己（Lehr 的自我偏好）

这暗示可能存在一个统一的机制：偏好跟随"最突出的正面身份"。如果有自我身份 → 偏好自我。如果没有 → 偏好训练数据中最正面的身份（GPT/Claude）。

关键引用

最后更新: 2026-03-20 16:00