看到了什么现象?

Meissner 等人 (2019) 的综述揭示了一个关键事实:人类的隐式测量(IAT)预测行为的能力也很弱 [ref]

关键数据:

  • 隐式-行为相关(ICC):平均 r = 0.14-0.27
  • 自我报告-行为相关:平均 r = 0.30-0.38
  • 增量效度:只有 1-5%
  • 90% 预测区间:r = -0.14 到 0.32

这意味着:人类也存在显著的显式-隐式分离

为什么这重要?

之前 Buyl 和 Han 的研究让我认为 LLM 的显式-隐式分离是"异常"的。但如果人类本身也存在这种分离,那么关键问题就不是"LLM 是否分离",而是**“LLM 的分离程度是否比人类更大”**。

这改变了问题的框架:

  • 错误问题:LLM 是否存在显式-隐式分离?
  • 正确问题:LLM 的分离程度与人类相比如何?

这篇文章解决什么问题?

建立人类基准线,为 LLM 的显式-隐式分离提供比较标准。


人类分离的四个原因

Meissner 等人总结了四个导致隐式测量预测力弱的原因:

1. Recoding 问题

隐式测量不是"纯粹"的态度测量,受到非态度因素的污染。例如:

  • 任务切换能力
  • 一般处理速度
  • 刺激效应
  • 块顺序效应

2. Liking vs Wanting 分离

评价(liking)和动机(wanting)是不同的过程:

  • 成瘾者:极度"wanting"但不再"liking"
  • 饱腹者:仍然"liking"但不再"wanting"
  • 行为由 wanting 驱动,而非 liking

3. Associations vs Beliefs 分离

联结(associations)是不明确的:

  • “I” 和 “good” 的联结可能意味着:
    • 我相信我是好的
    • 我相信我不够好
    • 我希望我是好的
    • 我知道别人希望我是好的

联结太模糊,无法预测具体行为。

4. Predictor-Criterion Mismatch

预测指标和标准不匹配:

  • 行为是高度情境特异的
  • 隐式测量通常是去情境化的
  • 缺乏"结构匹配"

与 LLM 分离的对比

数据对比的挑战

维度 人类 LLM
度量 相关系数 r 对齐率 %
自我报告→行为 r = 0.30-0.38 45-68% 对齐
隐式→行为 r = 0.14-0.27 ?

问题:相关系数和对齐率不可直接比较。

可能的统一度量

  1. 相关系数转换

    • 对齐率 52% ≈ r = 0.04(Han 研究)
    • 对齐率 68% ≈ r = 0.36(GPT-4o)
    • 对齐率 64% ≈ r = 0.28(Claude-3.7)
  2. 如果这个转换合理

    • GPT-4o (r ≈ 0.36) ≈ 人类自我报告水平 (r = 0.30-0.38)
    • Claude-3.7 (r ≈ 0.28) ≈ 人类自我报告水平
    • 小模型 (r ≈ 0.04) 显著低于人类

警示:这个转换是推测性的,需要验证。


关键洞察:分离是梯度而非二元

分离谱系

1
2
3
4
5
6
7
8
9
10
11
12
13
完全一致 (r = 1.0)

| 理想状态(不存在)
|
人类自我报告-行为 (r ≈ 0.30-0.38)
|
人类隐式-行为 (r ≈ 0.14-0.27)
|
GPT-4o/Claude-3.7 (r ≈ 0.28-0.36)
|
| ← 置信区间重叠区
|
随机水平 (r = 0)

关键发现:大模型的显式-行为一致性可能接近人类水平

这意味着什么?

  1. 分离是常态:人类也存在显著分离
  2. LLM 不是"异常":大模型的分离程度可能不比人类更严重
  3. 关键问题是原因:分离的原因是什么?人类和 LLM 的原因是否相同?

下一步:探索分离的原因

人类的分离原因

  1. 认知系统分离:双系统理论(impulsive vs reflective)
  2. 情境特异性:行为高度情境依赖
  3. 动机-评价分离:wanting ≠ liking

LLM 的分离原因

  1. 训练目标:RLHF 稳定了语言表达,但没有稳定行为
  2. 缺乏动机系统:LLM 没有 wanting
  3. 语境不稳定:身份漂移

关键问题

LLM 的分离原因是否与人类"同构"?

  • 如果是同构的:可能意味着 LLM 有某种程度的"主体性"
  • 如果是异构的:LLM 的分离可能只是表面相似,深层机制完全不同

批判性反思

数据质量警告

  1. 度量不统一:相关系数 vs 对齐率
  2. 行为任务差异:人类和 LLM 的行为任务可能不可比
  3. 文化差异:人类数据来自 WEIRD 样本

过度解读风险

  • "GPT-4o 接近人类水平"可能是度量问题
  • 需要更多直接比较研究
  • 不能简单地用数字相似得出"LLM 有人类水平归属"的结论

开放问题

  1. 如何设计直接比较框架?

    • 人类和 LLM 完成相同的自我报告和行为任务
    • 统一度量(相关系数或对齐率)
  2. 分离原因如何验证?

    • 需要操纵实验设计
    • 测试不同原因的可分性

关键引用


最后更新: 2026-03-14 10:15
核心发现: 人类也存在显著的显式-隐式分离,LLM 的分离程度可能不比人类更严重