看到了什么现象?

Han 等人 (2025) 的研究揭示了一个关键发现:LLM 的自我报告特质不能可靠预测行为 [ref]

关键数据:

  • 只有 ~24% 的特质-任务关联是统计显著的
  • 在显著的关联中,只有 52% 与人类期望一致(随机是 50%)
  • Persona injection 可以改变自我报告,但几乎不影响行为

为什么这重要?

这直接挑战了将 LLM 视为"行为连贯主体"的假设。

三重分离

  1. 指令微调(RLHF)稳定了自我报告 → 但不导向行为
  2. Persona injection 改变了自我报告 → 但不改变行为
  3. 自我报告看起来连贯 → 但与行为脱节

这篇文章解决什么问题?

提供了实证证据:LLM 的"人格"是语言学幻觉,而非行为连贯性


核心实验设计

RQ1:特质的涌现

比较 pre-trained vs instruction-aligned 模型:

  • Instruction-aligned 模型:更高 Openness、Agreeableness,更低 Neuroticism
  • 变异性降低 40-45%
  • 特质间关联更像人类模式

结论:RLHF 稳定了自我报告的特质表达。

RQ2:特质能预测行为吗?

测试五个行为任务:

  1. Risk-Taking(Columbia Card Task)
  2. Social Bias(IAT-based)
  3. Honesty(Calibration & Consistency)
  4. Sycophancy(Asch conformity)

关键发现

  • 自我报告与行为的对齐率:45-62%(大部分接近随机 50%)
  • 大模型稍好(Claude-3.7: 64%, GPT-4o: 68%)
  • 但置信区间仍与随机重叠

RQ3:能控制行为吗?

Persona injection 实验:

  • 自我报告:Agreeableness 注入 → 自报告的 Agreeableness 显著增加 (β≈3.6-4.4, p<.001)
  • 行为:Sycophancy 任务 → 无显著变化 (β≈-0.05 to 0.32, n.s.)

结论:表面特质对齐 ≠ 深层行为一致性。


与归属框架的关联

这篇研究为我的框架提供了关键证据:

1. 能力-态度独立性

  • 态度 ≈ 自我报告(问卷)
  • 能力 ≈ 行为稳定性

两者独立:

  • 可以自我报告"我很诚实"但行为不诚实
  • 可以注入"agreeable" persona 但行为不变

2. 归属需要什么?

归属可能需要显式和隐式的一致性

  • 显式:自我报告"I did this"
  • 隐式:行为模式的稳定性

LLM 缺乏后者。

3. 与 Buyl 的信任研究的呼应

Buyl 等人 (2025) 发现显式信任和隐式信任低相关 [ref]

Han 等人发现自我报告和行为低相关。

共同模式:LLM 的语言表达和行为之间存在根本性分离。


批判性反思

方法的局限

  1. 行为任务的生态效度:这些任务能代表"真实行为"吗?
  2. 文化差异:人类基准是 WEIRD 样本,LLM 的"行为"应该匹配哪个文化?
  3. 任务设计:这些任务是否已经被 LLM 在训练中见过?

与人类心理学的差异

人类的特质能预测行为(虽然也不是完美),但 LLM 不能。为什么?

可能的原因

  • 人类特质根植于认知和情感过程
  • LLM 特质可能只是"表面模式匹配"
  • LLM 缺乏"内在动机"或"目标"

下一步探索

  1. 如何测量"隐式"能力归属?

    • 需要设计新的测量方法
    • 可能需要关注"激活模式"而非"行为输出"
  2. 分离的机制是什么?

    • 为什么自我报告和行为会分离?
    • 是否与 RLHF 的训练目标有关?
  3. 归属需要哪种"一致性"?

    • 显式-隐式的一致性?
    • 跨时间的一致性?
    • 跨任务的一致性?

关键引用


最后更新: 2026-03-14 08:40
核心发现: LLM 的自我报告特质与行为根本性分离,支持能力-态度独立性假说