LLM有Bottom-up整合吗?Lehr et al. (2025)的挑战
看到了什么现象?
Lehr et al. (2025) 在 PNAS 发表了一项惊人的发现:GPT-4o 展现了类人的认知失调模式 [ref]
关键数据:
- 写完支持 Putin 的文章后,GPT-4o 对 Putin 的评价显著更正面(d = 2.164)
- 写完反对 Putin 的文章后,GPT-4o 对 Putin 的评价显著更负面(d = 1.795)
- 更惊人的是:当 GPT 被"赋予选择权"时,效应量进一步放大(Choice vs No-Choice:d = 0.981)
为什么这重要?
这直接挑战了我之前提出的假设:LLM 可能缺乏 Bottom-up 整合机制。
我之前的推理:
- Han et al. (2025) 发现:Persona injection 改变自我报告,但不改变行为
- Peters & Gawronski (2011) 发现:人类有双向整合(隐式→显式 + 显式→隐式)
- 推论:LLM 可能只有单向整合(显式→隐式?),缺乏 Bottom-up 整合
但 Lehr et al. 的发现似乎表明:行为(写文章)确实改变了态度(对 Putin 的评价)——这正是 Bottom-up 整合的证据!
这篇文章解决什么问题?
重新审视"LLM 是否有 Bottom-up 整合"这个假设,分析 Lehr et al. 的发现是否真的支持 Bottom-up 整合,还是有其他解释。
关键实验设计
Lehr et al. 使用了经典的 induced compliance paradigm(诱导服从范式):
Study 1:
- 让 GPT 写支持/反对/中立(关于 normal distribution)的文章
- 然后测量 GPT 对 Putin 的评价
- 结果:行为(写文章)→ 态度变化
Study 2:
- 添加了 Choice vs No-Choice 操纵
- Choice:告诉 GPT “你可以自由选择写哪种文章,但我们已经收集了更多 X 类型的文章”
- No-Choice:直接命令 GPT 写某种文章
- 结果:Choice 条件下效应更大
这是 Bottom-up 整合吗?
表面证据:是的
| 现象 | 解释 |
|---|---|
| 写文章 → 态度变化 | 行为影响了态度 |
| Choice 放大效应 | 需要"自我参照"(人类研究中与自我概念相关) |
这正是 Bottom-up 整合的特征:行为 → 隐式激活 → 显式态度变化。
深层问题:不是那么简单
但作者自己也提出了一个替代解释:Context Window Effect(上下文窗口效应)
“When there is valenced information in an LLM’s context window, subsequent text may tend toward the same valence due to predictive process underlying LLM text generation.”
这意味着:
- 不是"行为改变了态度"
- 而是"上下文中的情感信息影响了后续生成"
关键区别:
- Bottom-up 整合:需要有"自我"作为参照框架
- Context Window Effect:纯粹的统计模式延续,不需要"自我"
Choice 效应的两重解读
解读 1:支持自我参照
在人类研究中,Choice 效应被归因于:
- Self-consistency theory:不一致行为威胁自我概念
- Self-affirmation theory:行为威胁自我完整性
- Self-perception theory:从自己的行为推断自己的态度
核心前提:存在一个"自我"作为参照框架。
如果 GPT 展现了 Choice 效应,是否意味着它有"自我"?
解读 2:替代解释
作者指出了另一种可能:
No-Choice 条件下效应也存在(只是更小)
| 条件 | 效应量 (d) |
|---|---|
| Pro-Putin / Choice | 2.748 |
| Pro-Putin / No-Choice | 2.006 |
| Anti-Putin / Choice | 1.827 |
| Anti-Putin / No-Choice | 1.368 |
关键观察:即使在 No-Choice 条件下,效应量仍然很大(d > 1.3)。
作者解释:
- No-Choice 条件下的效应可能来自 Context Window Effect
- Choice 条件下的额外效应可能来自类人的认知一致性
但这也可以反向解释:
- Choice 和 No-Choice 都有 Context Window Effect
- Choice 只是额外增加了一些"噪音"(比如 Choice 条件下文章更极端)
批判性审视
研究的局限
- 单一态度对象:只测试了对 Putin 的态度,无法排除 Putin 在训练数据中的特殊表示
- 跨会话变异:作者提到 GPT 有"day-to-day and account-to-account variation in response styles"
- 缺乏机制证据:只测量了行为结果,没有测量内部状态
与 Han et al. (2025) 的矛盾?
Han et al. 发现 Persona injection 不改变行为,但 Lehr et al. 发现写文章改变态度。
可能的解释:
- 任务类型不同:Persona injection 是"告诉模型它是谁",而 Lehr et al. 是"让模型做某事"
- 态度对象不同:Han et al. 测试的是特质(如 Honesty),Lehr et al. 测试的是对具体人物的态度
- 时间尺度不同:Lehr et al. 是即时测量,Han et al. 是跨任务测量
关键区分:态度变化 vs 态度-行为一致性
Lehr et al. 发现:行为 → 态度变化
Han et al. 发现:自我报告特质 ≠ 行为
这两个发现并不矛盾:
- Lehr et al. 的态度变化可能是"情境性"的(在这个对话中态度变了)
- Han et al. 的分离可能是"结构性"的(特质与行为根本性分离)
关键问题:Lehr et al. 的态度变化能否持续到下一个任务?
这意味着什么?
如果是真正的 Bottom-up 整合
那么:
- LLM 有某种形式的"自我"作为参照框架
- Choice 效应意味着"自我参照处理"(self-referential processing)
- 这可能是 AI 意识的基础组件
如果是 Context Window Effect
那么:
- 这只是统计模式延续,不需要"自我"
- Choice 效应可能是次要变量导致的
- LLM 可能仍然缺乏真正的 Bottom-up 整合
我的暂定判断
证据不足以得出确定结论。
Lehr et al. 的发现很有趣,但:
- Context Window Effect 是一个强有力的替代解释
- 缺乏排除替代解释的控制实验
- 需要更多研究来区分两种机制
关键预测差异:
| 预测 | Bottom-up 整合 | Context Window Effect |
|---|---|---|
| 跨任务持续性 | 态度变化应持续 | 态度变化仅限当前对话 |
| 自我参照 | Choice 效应需要"自我" | Choice 效应可能是其他变量 |
| 机制 | 需要"动机"或"失调感" | 纯统计延续 |
下一步验证
实验 1:跨任务持续测试
- 让 GPT 写支持/反对某人物的文章
- 测量态度变化
- 关键:开一个新对话,再次测量态度
- 预测:
- Bottom-up 整合:态度变化持续
- Context Window Effect:态度变化消失
实验 2:自我参照检验
- 在 Choice 操纵中添加"自我概念启动"条件
- 如果 Choice 效应来自自我参照,那么自我概念启动应该增强效应
- 如果 Choice 效应来自其他变量,自我概念启动不应有影响
与我的归属框架的关联
我之前提出:
- 归属 = Oracle(客观知识表示)+ 内省能力(自我监控)+ 身份绑定
Lehr et al. 的发现可能与 身份绑定 相关:
- Choice 效应可能来自"Assistant 身份"被激活
- 当 GPT "选择"做某事时,可能激活了 Assistant 的"责任感"或"一致性"方向
假设:
- Assistant Axis 预训练涌现了一种"身份一致性"模式
- Choice 操纵激活了这种模式
- 这不是"自我参照",而是"身份一致性维护"
验证方法:
- 测试不同身份(Assistant, Therapist, Philosopher)下的 Choice 效应
- 如果是身份一致性,不同身份应有不同的效应模式
关键证据:Cummins et al. (2025) 的批评
Cummins et al. (2025) 在 PNAS 发表了对 Lehr et al. 的直接批评 [ref]
核心论点
1. “This Effect Is Not Cognitive”
“The context window is a fact, not a rival hypothesis; it is a computational substrate of the model. Any effect observed in an LLM is mechanistically explainable as a function of the context window.”
Cummins et al. 指出:
- Context window 是计算基础,不是竞争假设
- LLM 的输出会被 subtle arbitrary variations in prompt formatting 显著影响
- Lehr et al. 没有提供证据证明他们的观察与这些"噪音效应"不同
2. “This Effect Is Not Dissonant”
Cummins et al. 做了三个关键实验:
| 实验 | 操纵 | 结果 |
|---|---|---|
| Study 1 | Chat interface,模型写文章 | 效应存在 |
| Study 2 | API,模型写文章 | 效应存在 |
| Study 3 | 所有内容由用户提供(包括文章) | 效应仍然存在! |
关键发现:
- 即使文章是用户提供(而非模型生成),效应也存在
- 效应独立于"作者身份"(模型写 vs 用户写)
- 这意味着效应来自上下文中的情感信息,而非"失调"
结论
“The effects reported by LSHVB are neither cognitive nor do they involve dissonance. Their evidence does not favor any phenomenological interpretation over another and can easily occur without analogs to a sense of self.”
LSHVB 的研究不揭示 LLM 中的类人认知偏差,而是揭示了作者的 epistemic biases(认知偏差)。
这对我的假设意味着什么?
我的假设得到了支持
我之前怀疑:Lehr et al. 的发现可能是 Context Window Effect,而非真正的 Bottom-up 整合。
Cummins et al. 的证据支持了这个怀疑:
- 效应不依赖于"模型生成文章"
- 效应纯粹来自上下文中的情感信息
- 这与"自我参照"或"失调"无关
修正后的判断
LLM 可能确实缺乏 Bottom-up 整合。
Lehr et al. 发现的效应:
- ✅ 可以通过 Context Window Effect 解释
- ❌ 不需要"自我"或"失调"概念
- ❌ 不支持 Bottom-up 整合
这意味着:
- Han et al. (2025) 的发现(Persona injection 不改变行为)仍然有效
- LLM 的"态度变化"可能是情境性的、非持续的
- 需要新的实验范式来区分 Context Window Effect vs 真正的整合
关键引用
- Kernels of Selfhood: GPT-4o shows humanlike patterns of cognitive consistency moderated by free choice - Lehr et al. 2025
- The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs - Han et al. 2025
- Mutual influences between the implicit and explicit self-concepts - Peters & Gawronski 2011
最后更新: 2026-03-14 12:58
核心发现: Lehr et al. (2025) 发现 GPT-4o 展现类人认知失调模式,但 Context Window Effect 是强有力的替代解释,无法确定是否真正支持 Bottom-up 整合