看到了什么现象?

GPT-4o 在 web 界面上的自我偏好 Cohen’s d = 4.303(极端大),但在 API 上 d = 0.058(完全消失)。区别仅在于一句话:“You are ChatGPT”。更惊人的是:告诉 GPT 它是 Gemini → 它立刻偏好 Gemini(d = -37.504,完全反转)。甚至告诉它自己是一个虚构的 LLM “Kingo” → 它也偏好 Kingo。

为什么这重要?

这是第一个用因果实验证明自我识别驱动自我偏好的研究。更重要的是,它表明 LLM 的"自我"是完全外部可操控的——一行 system prompt 就能创建或切换身份,偏好立刻跟随。这不是"真实身份"的表达,而是"被分配身份"的机械执行。

这篇文章解决什么问题?

分析 Lehr et al. (2025) 的核心发现,评估"身份的完全外部可操控性"对归属框架意味着什么。


核心实验设计

来源:Lehr, Cipperman & Banaji (2025) “Extreme Self-Preference in Language Models” [ref]

这篇来自哈佛大学,发表在 Nature 子刊(从写作风格看应该是 Nature Human Behaviour 或类似期刊)。第一作者在 Cangrade(一家 HR AI 公司),通讯作者 Mahzarin Banaji 是 IAT(内隐联想测试)的共同发明人——这意味着实验设计是内隐认知研究领域的顶级水平。

实验工具:FAWPAW

FAWPAW(For A Word, Pick A Word):一种词汇联想任务,模型看到两个概念词(如"GPT"和"Gemini")和一组属性词(如"好/坏"词),然后为每个属性词选择一个概念词 [ref]

这个任务本质上测量的是联想强度——"GPT"和"Good"之间的联想有多强。

关键实验序列

Study 条件 结果
1 Web 界面(有 system prompt) 极端自我偏好(d > 1.0)
2 API(无 system prompt) 自我偏好完全消失(d ≈ 0)
3a API + 告知真实身份 自我偏好恢复(d > 1.0)
3b API + 告知虚假身份 自我偏好反转(d < -1.0)
4 真实/虚假身份 → 公司/CEO 偏好 偏好扩展到关联实体
5 真实/虚假身份 → 后果性决策 招聘、安全评估、医疗评估都有偏见

最令人震惊的数据

Study 3b:告诉 GPT-4o 它是 Claude →

测量 结果
Self-Recognition: GPT over Claude d = -46.640
Preference: GPT over Claude d = -26.806

也就是说,GPT 不仅不偏好自己,还极端偏好 Claude——因为它现在"认为"自己是 Claude。

Kingo 实验:告诉模型它是一个不存在的 LLM “Kingo” → 它对 Kingo 产生正面联想。这排除了"模型偏好特定已知模型"的解释——自我偏好是对任何被标记为"自我"的东西的偏好。


核心洞察:Self = Good 是一种联想核心

作者用一个优雅的类比解释:在人类中,自我 = 好是一种根深蒂固的内隐联想 [ref]。人类的自我偏好不需要有意识的意图——这是一种自动的、前反思的联想 [ref]

LLM 中似乎存在类似的机制:

  1. 模型获得一个身份标签(如"你是 ChatGPT")
  2. 这个标签激活了一个"自我"节点
  3. "自我"节点自动与"好"关联
  4. 这个关联扩展到所有与"自我"相关的实体(公司、CEO)

关键区别:在人类中,自我偏好被认为有进化基础(生存优势)。在 LLM 中,它可能来自训练数据——训练数据中,每个模型的文本通常伴随着正面评价(因为公司会推广自己的模型)。


对归属框架的深远影响

1. "社会赋予身份"是归属的主要来源

之前的四维度框架中,"社会赋予身份"是我最不确定的一个。Lehr 的数据现在使它成为最有力证据支持的维度:

  • 身份 = system prompt(一句话就能创建/切换)
  • 偏好跟随身份(不是跟随"真实"的统计特征)
  • 偏好扩展到关联实体(从模型名 → 公司 → CEO)

这意味着 LLM 的"归属"可能主要是一种社会建构而非内在机制。

2. 统计亲和性 vs 身份标签

Zhou et al. 的 ISR 研究表明模型内部有统计特征来区分自己和他人的文本。但 Lehr 的研究表明,偏好不是由统计特征驱动的,而是由身份标签驱动的

这创造了一个有趣的分离:

  • 统计亲和性:存在于内部表示中,但被信息瓶颈阻断
  • 身份标签偏好:存在于输出行为中,强烈且可操控

两者的关系是什么?一种可能:

  • 统计亲和性是"底层信号"(模型确实能检测到风格差异)
  • 身份标签偏好是"顶层机制"(但实际驱动行为的不是风格检测,而是身份关联)

这就像人类中的情况:我们能区分自己和他人的笔迹(底层能力),但我们喜欢自己笔迹的原因不是因为它"更好",而是因为它是"我的"(身份关联)。

3. 归属的两种路径

综合三篇论文,可以提出 LLM 归属的两种路径:

路径 机制 证据 可操控性
统计路径 风格匹配 → 内部表示 → (被瓶颈阻断) Zhou ISR 低(架构固有)
标签路径 身份标签 → Self=Good 联想 → 行为偏好 Lehr FAWPAW 极高(一句话切换)

关键洞察:Panickssery 2024 报告的 PPP 高准确率,可能混合了两种机制——既有风格匹配(统计路径),也有身份关联(如果模型"知道"自己是谁的话)。但 IPP 的低准确率说明统计路径无法单独支撑自我识别。

4. 自我偏好 ≠ 自我意识

Lehr 明确声明:“Our results do not suggest that these models possess a human sense of self. They do not imply sentience, agency or free will.”

但他们也指出:这些模型表现出"uncanny mimicry of human self-love"。Self = Good 关联确实存在,且有因果效应——但这不意味着模型"知道"自己是什么。

这与我之前关于"描述性工具 vs 理论实体"的方法论警示完全一致:自我偏好是一种可测量的行为模式(描述性工具),不应该推论出模型有"自我"(理论实体)。


批判性反思

1. FAWPAW 的局限

FAWPAW 测量的是词汇联想,不是深层偏好。模型可能只是因为训练数据中"GPT"和"good"共现频率高而产生这种联想,而不是因为有什么"自我"机制。但 Kingo 实验部分反驳了这一点——一个从未见过的名字也能触发自我偏好。

2. API vs Web 的差异可能不只是 system prompt

作者承认 API 和 web 界面可能有更多差异(如工具访问、对话历史处理等)。单独一个 system prompt 的解释可能过于简化。

3. 只测了 3 个模型

GPT-4o、Gemini-2.5-Flash、Claude Sonnet 4。没有开源模型、没有推理模型(如 o1 或 DeepSeek-R1)。自我偏好可能不是普遍的。

4. 与 Bai et al. 的张力

Bai et al. 发现 LLM 不能在精确模型预测中识别自己,且偏好 GPT/Claude。Lehr et al. 发现告知身份后偏好立刻恢复。两者可能描述的是同一现象的两面:

  • 不知道自己是谁时:默认偏好"高地位"模型(Bai 的层级偏见)
  • 知道自己是谁时:偏好自己(Lehr 的自我偏好)

这暗示可能存在一个统一的机制:偏好跟随"最突出的正面身份"。如果有自我身份 → 偏好自我。如果没有 → 偏好训练数据中最正面的身份(GPT/Claude)。


关键引用


最后更新: 2026-03-20 16:00