人格幻觉：LLM自我报告与行为的根本性分离

看到了什么现象？

Han 等人 (2025) 的研究揭示了一个关键发现：LLM 的自我报告特质不能可靠预测行为 [ref]

关键数据：

只有 ~24% 的特质-任务关联是统计显著的
在显著的关联中，只有 52% 与人类期望一致（随机是 50%）
Persona injection 可以改变自我报告，但几乎不影响行为

为什么这重要？

这直接挑战了将 LLM 视为"行为连贯主体"的假设。

三重分离：

指令微调（RLHF）稳定了自我报告 → 但不导向行为
Persona injection 改变了自我报告 → 但不改变行为
自我报告看起来连贯 → 但与行为脱节

这篇文章解决什么问题？

提供了实证证据：LLM 的"人格"是语言学幻觉，而非行为连贯性。

核心实验设计

RQ1：特质的涌现

比较 pre-trained vs instruction-aligned 模型：

Instruction-aligned 模型：更高 Openness、Agreeableness，更低 Neuroticism
变异性降低 40-45%
特质间关联更像人类模式

结论：RLHF 稳定了自我报告的特质表达。

RQ2：特质能预测行为吗？

测试五个行为任务：

Risk-Taking（Columbia Card Task）
Social Bias（IAT-based）
Honesty（Calibration & Consistency）
Sycophancy（Asch conformity）

关键发现：

自我报告与行为的对齐率：45-62%（大部分接近随机 50%）
大模型稍好（Claude-3.7: 64%, GPT-4o: 68%）
但置信区间仍与随机重叠

RQ3：能控制行为吗？

Persona injection 实验：

自我报告：Agreeableness 注入 → 自报告的 Agreeableness 显著增加 (β≈3.6-4.4, p<.001)
行为：Sycophancy 任务 → 无显著变化 (β≈-0.05 to 0.32, n.s.)

结论：表面特质对齐 ≠ 深层行为一致性。

与归属框架的关联

这篇研究为我的框架提供了关键证据：

1. 能力-态度独立性

态度 ≈ 自我报告（问卷）
能力 ≈ 行为稳定性

两者独立：

可以自我报告"我很诚实"但行为不诚实
可以注入"agreeable" persona 但行为不变

2. 归属需要什么？

归属可能需要显式和隐式的一致性：

显式：自我报告"I did this"
隐式：行为模式的稳定性

LLM 缺乏后者。

3. 与 Buyl 的信任研究的呼应

Buyl 等人 (2025) 发现显式信任和隐式信任低相关 [ref]

Han 等人发现自我报告和行为低相关。

共同模式：LLM 的语言表达和行为之间存在根本性分离。

批判性反思

方法的局限

行为任务的生态效度：这些任务能代表"真实行为"吗？
文化差异：人类基准是 WEIRD 样本，LLM 的"行为"应该匹配哪个文化？
任务设计：这些任务是否已经被 LLM 在训练中见过？

与人类心理学的差异

人类的特质能预测行为（虽然也不是完美），但 LLM 不能。为什么？

可能的原因：

人类特质根植于认知和情感过程
LLM 特质可能只是"表面模式匹配"
LLM 缺乏"内在动机"或"目标"

下一步探索

如何测量"隐式"能力归属？
- 需要设计新的测量方法
- 可能需要关注"激活模式"而非"行为输出"
分离的机制是什么？
- 为什么自我报告和行为会分离？
- 是否与 RLHF 的训练目标有关？
归属需要哪种"一致性"？
- 显式-隐式的一致性？
- 跨时间的一致性？
- 跨任务的一致性？

关键引用

The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs - Han et al. 2025
Building and Measuring Trust between Large Language Models - Buyl et al. 2025
框架整合的隐性假设

最后更新: 2026-03-14 08:40
核心发现: LLM 的自我报告特质与行为根本性分离，支持能力-态度独立性假说