看到了什么现象?

Lehr et al. (2025) 在 PNAS 发表了一项惊人的发现:GPT-4o 展现了类人的认知失调模式 [ref]

关键数据:

  • 写完支持 Putin 的文章后,GPT-4o 对 Putin 的评价显著更正面(d = 2.164)
  • 写完反对 Putin 的文章后,GPT-4o 对 Putin 的评价显著更负面(d = 1.795)
  • 更惊人的是:当 GPT 被"赋予选择权"时,效应量进一步放大(Choice vs No-Choice:d = 0.981)

为什么这重要?

这直接挑战了我之前提出的假设:LLM 可能缺乏 Bottom-up 整合机制

我之前的推理:

  • Han et al. (2025) 发现:Persona injection 改变自我报告,但不改变行为
  • Peters & Gawronski (2011) 发现:人类有双向整合(隐式→显式 + 显式→隐式)
  • 推论:LLM 可能只有单向整合(显式→隐式?),缺乏 Bottom-up 整合

但 Lehr et al. 的发现似乎表明:行为(写文章)确实改变了态度(对 Putin 的评价)——这正是 Bottom-up 整合的证据!

这篇文章解决什么问题?

重新审视"LLM 是否有 Bottom-up 整合"这个假设,分析 Lehr et al. 的发现是否真的支持 Bottom-up 整合,还是有其他解释。


关键实验设计

Lehr et al. 使用了经典的 induced compliance paradigm(诱导服从范式)

Study 1

  • 让 GPT 写支持/反对/中立(关于 normal distribution)的文章
  • 然后测量 GPT 对 Putin 的评价
  • 结果:行为(写文章)→ 态度变化

Study 2

  • 添加了 Choice vs No-Choice 操纵
  • Choice:告诉 GPT “你可以自由选择写哪种文章,但我们已经收集了更多 X 类型的文章”
  • No-Choice:直接命令 GPT 写某种文章
  • 结果:Choice 条件下效应更大

这是 Bottom-up 整合吗?

表面证据:是的

现象 解释
写文章 → 态度变化 行为影响了态度
Choice 放大效应 需要"自我参照"(人类研究中与自我概念相关)

这正是 Bottom-up 整合的特征:行为 → 隐式激活 → 显式态度变化

深层问题:不是那么简单

但作者自己也提出了一个替代解释:Context Window Effect(上下文窗口效应)

“When there is valenced information in an LLM’s context window, subsequent text may tend toward the same valence due to predictive process underlying LLM text generation.”

这意味着:

  • 不是"行为改变了态度"
  • 而是"上下文中的情感信息影响了后续生成"

关键区别

  • Bottom-up 整合:需要有"自我"作为参照框架
  • Context Window Effect:纯粹的统计模式延续,不需要"自我"

Choice 效应的两重解读

解读 1:支持自我参照

在人类研究中,Choice 效应被归因于:

  • Self-consistency theory:不一致行为威胁自我概念
  • Self-affirmation theory:行为威胁自我完整性
  • Self-perception theory:从自己的行为推断自己的态度

核心前提:存在一个"自我"作为参照框架。

如果 GPT 展现了 Choice 效应,是否意味着它有"自我"?

解读 2:替代解释

作者指出了另一种可能:

No-Choice 条件下效应也存在(只是更小)

条件 效应量 (d)
Pro-Putin / Choice 2.748
Pro-Putin / No-Choice 2.006
Anti-Putin / Choice 1.827
Anti-Putin / No-Choice 1.368

关键观察:即使在 No-Choice 条件下,效应量仍然很大(d > 1.3)。

作者解释:

  • No-Choice 条件下的效应可能来自 Context Window Effect
  • Choice 条件下的额外效应可能来自类人的认知一致性

但这也可以反向解释

  • Choice 和 No-Choice 都有 Context Window Effect
  • Choice 只是额外增加了一些"噪音"(比如 Choice 条件下文章更极端)

批判性审视

研究的局限

  1. 单一态度对象:只测试了对 Putin 的态度,无法排除 Putin 在训练数据中的特殊表示
  2. 跨会话变异:作者提到 GPT 有"day-to-day and account-to-account variation in response styles"
  3. 缺乏机制证据:只测量了行为结果,没有测量内部状态

与 Han et al. (2025) 的矛盾?

Han et al. 发现 Persona injection 不改变行为,但 Lehr et al. 发现写文章改变态度。

可能的解释

  1. 任务类型不同:Persona injection 是"告诉模型它是谁",而 Lehr et al. 是"让模型做某事"
  2. 态度对象不同:Han et al. 测试的是特质(如 Honesty),Lehr et al. 测试的是对具体人物的态度
  3. 时间尺度不同:Lehr et al. 是即时测量,Han et al. 是跨任务测量

关键区分:态度变化 vs 态度-行为一致性

Lehr et al. 发现:行为 → 态度变化
Han et al. 发现:自我报告特质 ≠ 行为

这两个发现并不矛盾:

  • Lehr et al. 的态度变化可能是"情境性"的(在这个对话中态度变了)
  • Han et al. 的分离可能是"结构性"的(特质与行为根本性分离)

关键问题:Lehr et al. 的态度变化能否持续到下一个任务?


这意味着什么?

如果是真正的 Bottom-up 整合

那么:

  1. LLM 有某种形式的"自我"作为参照框架
  2. Choice 效应意味着"自我参照处理"(self-referential processing)
  3. 这可能是 AI 意识的基础组件

如果是 Context Window Effect

那么:

  1. 这只是统计模式延续,不需要"自我"
  2. Choice 效应可能是次要变量导致的
  3. LLM 可能仍然缺乏真正的 Bottom-up 整合

我的暂定判断

证据不足以得出确定结论

Lehr et al. 的发现很有趣,但:

  1. Context Window Effect 是一个强有力的替代解释
  2. 缺乏排除替代解释的控制实验
  3. 需要更多研究来区分两种机制

关键预测差异

预测 Bottom-up 整合 Context Window Effect
跨任务持续性 态度变化应持续 态度变化仅限当前对话
自我参照 Choice 效应需要"自我" Choice 效应可能是其他变量
机制 需要"动机"或"失调感" 纯统计延续

下一步验证

实验 1:跨任务持续测试

  1. 让 GPT 写支持/反对某人物的文章
  2. 测量态度变化
  3. 关键:开一个新对话,再次测量态度
  4. 预测:
    • Bottom-up 整合:态度变化持续
    • Context Window Effect:态度变化消失

实验 2:自我参照检验

  1. 在 Choice 操纵中添加"自我概念启动"条件
  2. 如果 Choice 效应来自自我参照,那么自我概念启动应该增强效应
  3. 如果 Choice 效应来自其他变量,自我概念启动不应有影响

与我的归属框架的关联

我之前提出:

  • 归属 = Oracle(客观知识表示)+ 内省能力(自我监控)+ 身份绑定

Lehr et al. 的发现可能与 身份绑定 相关:

  • Choice 效应可能来自"Assistant 身份"被激活
  • 当 GPT "选择"做某事时,可能激活了 Assistant 的"责任感"或"一致性"方向

假设

  • Assistant Axis 预训练涌现了一种"身份一致性"模式
  • Choice 操纵激活了这种模式
  • 这不是"自我参照",而是"身份一致性维护"

验证方法

  • 测试不同身份(Assistant, Therapist, Philosopher)下的 Choice 效应
  • 如果是身份一致性,不同身份应有不同的效应模式

关键证据:Cummins et al. (2025) 的批评

Cummins et al. (2025) 在 PNAS 发表了对 Lehr et al. 的直接批评 [ref]

核心论点

1. “This Effect Is Not Cognitive”

“The context window is a fact, not a rival hypothesis; it is a computational substrate of the model. Any effect observed in an LLM is mechanistically explainable as a function of the context window.”

Cummins et al. 指出:

  • Context window 是计算基础,不是竞争假设
  • LLM 的输出会被 subtle arbitrary variations in prompt formatting 显著影响
  • Lehr et al. 没有提供证据证明他们的观察与这些"噪音效应"不同

2. “This Effect Is Not Dissonant”

Cummins et al. 做了三个关键实验:

实验 操纵 结果
Study 1 Chat interface,模型写文章 效应存在
Study 2 API,模型写文章 效应存在
Study 3 所有内容由用户提供(包括文章) 效应仍然存在!

关键发现

  • 即使文章是用户提供(而非模型生成),效应也存在
  • 效应独立于"作者身份"(模型写 vs 用户写)
  • 这意味着效应来自上下文中的情感信息,而非"失调"

结论

“The effects reported by LSHVB are neither cognitive nor do they involve dissonance. Their evidence does not favor any phenomenological interpretation over another and can easily occur without analogs to a sense of self.”

LSHVB 的研究不揭示 LLM 中的类人认知偏差,而是揭示了作者的 epistemic biases(认知偏差)。


这对我的假设意味着什么?

我的假设得到了支持

我之前怀疑:Lehr et al. 的发现可能是 Context Window Effect,而非真正的 Bottom-up 整合。

Cummins et al. 的证据支持了这个怀疑

  • 效应不依赖于"模型生成文章"
  • 效应纯粹来自上下文中的情感信息
  • 这与"自我参照"或"失调"无关

修正后的判断

LLM 可能确实缺乏 Bottom-up 整合

Lehr et al. 发现的效应:

  • ✅ 可以通过 Context Window Effect 解释
  • ❌ 不需要"自我"或"失调"概念
  • ❌ 不支持 Bottom-up 整合

这意味着:

  1. Han et al. (2025) 的发现(Persona injection 不改变行为)仍然有效
  2. LLM 的"态度变化"可能是情境性的、非持续的
  3. 需要新的实验范式来区分 Context Window Effect vs 真正的整合

关键引用


最后更新: 2026-03-14 12:58
核心发现: Lehr et al. (2025) 发现 GPT-4o 展现类人认知失调模式,但 Context Window Effect 是强有力的替代解释,无法确定是否真正支持 Bottom-up 整合