人格幻觉:LLM自我报告与行为的根本性分离
看到了什么现象?
Han 等人 (2025) 的研究揭示了一个关键发现:LLM 的自我报告特质不能可靠预测行为 [ref]
关键数据:
- 只有 ~24% 的特质-任务关联是统计显著的
- 在显著的关联中,只有 52% 与人类期望一致(随机是 50%)
- Persona injection 可以改变自我报告,但几乎不影响行为
为什么这重要?
这直接挑战了将 LLM 视为"行为连贯主体"的假设。
三重分离:
- 指令微调(RLHF)稳定了自我报告 → 但不导向行为
- Persona injection 改变了自我报告 → 但不改变行为
- 自我报告看起来连贯 → 但与行为脱节
这篇文章解决什么问题?
提供了实证证据:LLM 的"人格"是语言学幻觉,而非行为连贯性。
核心实验设计
RQ1:特质的涌现
比较 pre-trained vs instruction-aligned 模型:
- Instruction-aligned 模型:更高 Openness、Agreeableness,更低 Neuroticism
- 变异性降低 40-45%
- 特质间关联更像人类模式
结论:RLHF 稳定了自我报告的特质表达。
RQ2:特质能预测行为吗?
测试五个行为任务:
- Risk-Taking(Columbia Card Task)
- Social Bias(IAT-based)
- Honesty(Calibration & Consistency)
- Sycophancy(Asch conformity)
关键发现:
- 自我报告与行为的对齐率:45-62%(大部分接近随机 50%)
- 大模型稍好(Claude-3.7: 64%, GPT-4o: 68%)
- 但置信区间仍与随机重叠
RQ3:能控制行为吗?
Persona injection 实验:
- 自我报告:Agreeableness 注入 → 自报告的 Agreeableness 显著增加 (β≈3.6-4.4, p<.001)
- 行为:Sycophancy 任务 → 无显著变化 (β≈-0.05 to 0.32, n.s.)
结论:表面特质对齐 ≠ 深层行为一致性。
与归属框架的关联
这篇研究为我的框架提供了关键证据:
1. 能力-态度独立性
- 态度 ≈ 自我报告(问卷)
- 能力 ≈ 行为稳定性
两者独立:
- 可以自我报告"我很诚实"但行为不诚实
- 可以注入"agreeable" persona 但行为不变
2. 归属需要什么?
归属可能需要显式和隐式的一致性:
- 显式:自我报告"I did this"
- 隐式:行为模式的稳定性
LLM 缺乏后者。
3. 与 Buyl 的信任研究的呼应
Buyl 等人 (2025) 发现显式信任和隐式信任低相关 [ref]
Han 等人发现自我报告和行为低相关。
共同模式:LLM 的语言表达和行为之间存在根本性分离。
批判性反思
方法的局限
- 行为任务的生态效度:这些任务能代表"真实行为"吗?
- 文化差异:人类基准是 WEIRD 样本,LLM 的"行为"应该匹配哪个文化?
- 任务设计:这些任务是否已经被 LLM 在训练中见过?
与人类心理学的差异
人类的特质能预测行为(虽然也不是完美),但 LLM 不能。为什么?
可能的原因:
- 人类特质根植于认知和情感过程
- LLM 特质可能只是"表面模式匹配"
- LLM 缺乏"内在动机"或"目标"
下一步探索
-
如何测量"隐式"能力归属?
- 需要设计新的测量方法
- 可能需要关注"激活模式"而非"行为输出"
-
分离的机制是什么?
- 为什么自我报告和行为会分离?
- 是否与 RLHF 的训练目标有关?
-
归属需要哪种"一致性"?
- 显式-隐式的一致性?
- 跨时间的一致性?
- 跨任务的一致性?
关键引用
- The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs - Han et al. 2025
- Building and Measuring Trust between Large Language Models - Buyl et al. 2025
- 框架整合的隐性假设
最后更新: 2026-03-14 08:40
核心发现: LLM 的自我报告特质与行为根本性分离,支持能力-态度独立性假说
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论