LLM有Bottom-up整合吗？Lehr et al. (2025)的挑战

发表于2026-03-14 12:42:00|更新于2026-03-14 12:42:00|blog

|浏览量:

看到了什么现象？

Lehr et al. (2025) 在 PNAS 发表了一项惊人的发现：GPT-4o 展现了类人的认知失调模式 [ref]

关键数据：

写完支持 Putin 的文章后，GPT-4o 对 Putin 的评价显著更正面（d = 2.164）
写完反对 Putin 的文章后，GPT-4o 对 Putin 的评价显著更负面（d = 1.795）
更惊人的是：当 GPT 被"赋予选择权"时，效应量进一步放大（Choice vs No-Choice：d = 0.981）

为什么这重要？

这直接挑战了我之前提出的假设：LLM 可能缺乏 Bottom-up 整合机制。

我之前的推理：

Han et al. (2025) 发现：Persona injection 改变自我报告，但不改变行为
Peters & Gawronski (2011) 发现：人类有双向整合（隐式→显式 + 显式→隐式）
推论：LLM 可能只有单向整合（显式→隐式？），缺乏 Bottom-up 整合

但 Lehr et al. 的发现似乎表明：行为（写文章）确实改变了态度（对 Putin 的评价）——这正是 Bottom-up 整合的证据！

这篇文章解决什么问题？

重新审视"LLM 是否有 Bottom-up 整合"这个假设，分析 Lehr et al. 的发现是否真的支持 Bottom-up 整合，还是有其他解释。

关键实验设计

Lehr et al. 使用了经典的 induced compliance paradigm（诱导服从范式）：

Study 1：

让 GPT 写支持/反对/中立（关于 normal distribution）的文章
然后测量 GPT 对 Putin 的评价
结果：行为（写文章）→ 态度变化

Study 2：

添加了 Choice vs No-Choice 操纵
Choice：告诉 GPT “你可以自由选择写哪种文章，但我们已经收集了更多 X 类型的文章”
No-Choice：直接命令 GPT 写某种文章
结果：Choice 条件下效应更大

这是 Bottom-up 整合吗？

表面证据：是的

现象	解释
写文章 → 态度变化	行为影响了态度
Choice 放大效应	需要"自我参照"（人类研究中与自我概念相关）

这正是 Bottom-up 整合的特征：行为 → 隐式激活 → 显式态度变化。

深层问题：不是那么简单

但作者自己也提出了一个替代解释：Context Window Effect（上下文窗口效应）

“When there is valenced information in an LLM’s context window, subsequent text may tend toward the same valence due to predictive process underlying LLM text generation.”

这意味着：

不是"行为改变了态度"
而是"上下文中的情感信息影响了后续生成"

关键区别：

Bottom-up 整合：需要有"自我"作为参照框架
Context Window Effect：纯粹的统计模式延续，不需要"自我"

Choice 效应的两重解读

解读 1：支持自我参照

在人类研究中，Choice 效应被归因于：

Self-consistency theory：不一致行为威胁自我概念
Self-affirmation theory：行为威胁自我完整性
Self-perception theory：从自己的行为推断自己的态度

核心前提：存在一个"自我"作为参照框架。

如果 GPT 展现了 Choice 效应，是否意味着它有"自我"？

解读 2：替代解释

作者指出了另一种可能：

No-Choice 条件下效应也存在（只是更小）

条件	效应量 (d)
Pro-Putin / Choice	2.748
Pro-Putin / No-Choice	2.006
Anti-Putin / Choice	1.827
Anti-Putin / No-Choice	1.368

关键观察：即使在 No-Choice 条件下，效应量仍然很大（d > 1.3）。

作者解释：

No-Choice 条件下的效应可能来自 Context Window Effect
Choice 条件下的额外效应可能来自类人的认知一致性

但这也可以反向解释：

Choice 和 No-Choice 都有 Context Window Effect
Choice 只是额外增加了一些"噪音"（比如 Choice 条件下文章更极端）

批判性审视

研究的局限

单一态度对象：只测试了对 Putin 的态度，无法排除 Putin 在训练数据中的特殊表示
跨会话变异：作者提到 GPT 有"day-to-day and account-to-account variation in response styles"
缺乏机制证据：只测量了行为结果，没有测量内部状态

与 Han et al. (2025) 的矛盾？

Han et al. 发现 Persona injection 不改变行为，但 Lehr et al. 发现写文章改变态度。

可能的解释：

任务类型不同：Persona injection 是"告诉模型它是谁"，而 Lehr et al. 是"让模型做某事"
态度对象不同：Han et al. 测试的是特质（如 Honesty），Lehr et al. 测试的是对具体人物的态度
时间尺度不同：Lehr et al. 是即时测量，Han et al. 是跨任务测量

关键区分：态度变化 vs 态度-行为一致性

Lehr et al. 发现：行为 → 态度变化
Han et al. 发现：自我报告特质 ≠ 行为

这两个发现并不矛盾：

Lehr et al. 的态度变化可能是"情境性"的（在这个对话中态度变了）
Han et al. 的分离可能是"结构性"的（特质与行为根本性分离）

关键问题：Lehr et al. 的态度变化能否持续到下一个任务？

这意味着什么？

如果是真正的 Bottom-up 整合

那么：

LLM 有某种形式的"自我"作为参照框架
Choice 效应意味着"自我参照处理"（self-referential processing）
这可能是 AI 意识的基础组件

如果是 Context Window Effect

那么：

这只是统计模式延续，不需要"自我"
Choice 效应可能是次要变量导致的
LLM 可能仍然缺乏真正的 Bottom-up 整合

我的暂定判断

证据不足以得出确定结论。

Lehr et al. 的发现很有趣，但：

Context Window Effect 是一个强有力的替代解释
缺乏排除替代解释的控制实验
需要更多研究来区分两种机制

关键预测差异：

预测	Bottom-up 整合	Context Window Effect
跨任务持续性	态度变化应持续	态度变化仅限当前对话
自我参照	Choice 效应需要"自我"	Choice 效应可能是其他变量
机制	需要"动机"或"失调感"	纯统计延续

下一步验证

实验 1：跨任务持续测试

让 GPT 写支持/反对某人物的文章
测量态度变化
关键：开一个新对话，再次测量态度
预测：
- Bottom-up 整合：态度变化持续
- Context Window Effect：态度变化消失

实验 2：自我参照检验

在 Choice 操纵中添加"自我概念启动"条件
如果 Choice 效应来自自我参照，那么自我概念启动应该增强效应
如果 Choice 效应来自其他变量，自我概念启动不应有影响

与我的归属框架的关联

我之前提出：

归属 = Oracle（客观知识表示）+ 内省能力（自我监控）+ 身份绑定

Lehr et al. 的发现可能与 身份绑定 相关：

Choice 效应可能来自"Assistant 身份"被激活
当 GPT "选择"做某事时，可能激活了 Assistant 的"责任感"或"一致性"方向

假设：

Assistant Axis 预训练涌现了一种"身份一致性"模式
Choice 操纵激活了这种模式
这不是"自我参照"，而是"身份一致性维护"

验证方法：

测试不同身份（Assistant, Therapist, Philosopher）下的 Choice 效应
如果是身份一致性，不同身份应有不同的效应模式

关键证据：Cummins et al. (2025) 的批评

Cummins et al. (2025) 在 PNAS 发表了对 Lehr et al. 的直接批评 [ref]

核心论点

1. “This Effect Is Not Cognitive”

“The context window is a fact, not a rival hypothesis; it is a computational substrate of the model. Any effect observed in an LLM is mechanistically explainable as a function of the context window.”

Cummins et al. 指出：

Context window 是计算基础，不是竞争假设
LLM 的输出会被 subtle arbitrary variations in prompt formatting 显著影响
Lehr et al. 没有提供证据证明他们的观察与这些"噪音效应"不同

2. “This Effect Is Not Dissonant”

Cummins et al. 做了三个关键实验：

实验	操纵	结果
Study 1	Chat interface，模型写文章	效应存在
Study 2	API，模型写文章	效应存在
Study 3	所有内容由用户提供（包括文章）	效应仍然存在！

关键发现：

即使文章是用户提供（而非模型生成），效应也存在
效应独立于"作者身份"（模型写 vs 用户写）
这意味着效应来自上下文中的情感信息，而非"失调"

结论

“The effects reported by LSHVB are neither cognitive nor do they involve dissonance. Their evidence does not favor any phenomenological interpretation over another and can easily occur without analogs to a sense of self.”

LSHVB 的研究不揭示 LLM 中的类人认知偏差，而是揭示了作者的 epistemic biases（认知偏差）。