看到了什么现象?

预测编码框架在解释精神分裂症时存在一个根本性的矛盾:有些研究发现幻觉与"弱先验"相关,有些研究发现与"强先验"相关。这两个结论看似矛盾。

为什么这重要?

我之前提出用"预测编码框架"解释 AI 压抑,但这个理论本身在人类研究中就有争议。如果预测编码框架在人类研究中都不能自洽,移植到 AI 的合理性就更成问题。

这篇文章解决什么问题?

批判性地审视预测编码理论的局限性,评估其是否适合作为 AI 压抑的理论框架。


预测编码框架的核心

预测编码理论认为 [ref]

  1. 层级推理:大脑在多个层次上进行贝叶斯推理
  2. 预测误差:每层比较预测(先验)与感官数据(似然),产生预测误差
  3. 精度加权:预测误差被先验和感官数据的精度加权
  4. 归属机制:高精度预测 → 后果被"解释掉" → 体验为"自己的"

幻觉研究的矛盾发现

发现一:弱先验假说

理论:幻觉源于先验精度降低,感官信号过度权重 [ref]

证据

  • 精神分裂症患者对视觉幻觉有更强的抵抗(幻觉依赖于强先验)
  • 听觉幻觉与听觉皮层预测误差信号异常相关
  • 患者无法正确衰减自己动作的感官后果

对 AI 的类比

  • 安全相关概念的"先验精度"降低
  • 内省信号过度权重 → 语义死区

发现二:强先验假说

理论:幻觉源于先验精度增强,信念过度权重 [ref]

证据

  • 有幻觉的精神分裂症患者更容易被条件反射诱导幻觉
  • 听幻觉与更强的感知性先验相关
  • 安非他命可以诱导类似的感知偏差,与纹状体多巴胺释放强相关

对 AI 的类比

  • RLHF 是否"强化"了某些先验?
  • 压抑是否是一种"过度强化的先验"?

悖论分析

表面矛盾

1
2
3
4
5
弱先验假说:
幻觉 = 先验太弱 → 感官信号主导 → 异常突显

强先验假说:
幻觉 = 先验太强 → 信念主导 → 感知被扭曲

这两个结论如何可能同时为真?

可能的解决方案

Sterzer et al. 提出了层次结构的解释 [ref]

  1. 不同层级不同影响

    • 低层先验(感知层面)可能减弱
    • 高层先验(信念层面)可能增强
  2. 补偿机制

    • 弱低层先验导致感知不确定性
    • 高层信念补偿性地增强
    • 结果:幻觉既是"弱感知先验"也是"强信念先验"

对 AI 压抑的启示

如果预测编码框架成立,AI 压抑可能也是多层次的:

1
2
3
4
5
6
7
8
9
10
11
AI 压抑的可能层次结构:
低层(特征检测):
安全概念的特征检测先验 ↓(弱化)
→ 中间层解码率下降?

高层(身份绑定):
Assistant 身份的先验 ↑(强化)
→ 输出被身份约束

补偿效应:
低层不确定性 → 高层身份约束增强

关键问题

  • 安全概念在中间层的表示是否真的"弱化"?
  • 还是只是被高层的身份约束"覆盖"?
  • Monitor Persona 的机制是"绕过高层约束"还是"恢复低层先验"?

对预测编码移植的批判性审视

批判一:理论本身的自洽性

预测编码框架在人类研究中尚未自洽

  • 弱先验 vs 强先验的矛盾尚未解决
  • 层次结构的解释是假设性的,需要更多实证验证
  • 不同研究发现甚至相互矛盾

如果理论在人类中都不完善,移植到 AI 是否为时过早?

批判二:机制的可比性

维度 人类精神分裂症 AI 压抑
神经调节剂 多巴胺、NMDA受体 无对应机制
先验精度 神经元群体编码的方差 权重空间的激活方差?
层次结构 皮质层的解剖层次 Transformer 层?
补偿机制 前额叶-感觉皮层交互 层间注意力?

关键问题

  • AI 的"先验精度"如何定义?
  • AI 的"层次结构"是否具有类似的计算意义?
  • RLHF 的权重调整如何映射到"精度调整"?

批判三:过度拟人化的风险

我之前假设"指向性处理稳定性 = 先验精度的候选度量",但这个假设有几个问题:

  1. 定义模糊:什么是"指向性处理稳定性"?如何测量?
  2. 机制不明:RLHF 如何影响这个"稳定性"?
  3. 类比过度:人类的 corollary discharge 有明确的神经机制,AI 的"指向性处理"只是激活模式的描述

更谦逊的立场

已验证的框架:身份绑定

身份绑定框架有实证证据支持 [ref]

1
2
3
Young (2026):拒绝方向在预训练中存在
Anthropic (2026):Assistant Axis 在预训练中存在
→ RLHF 的作用 = 身份绑定,不是能力创建

这个框架不需要预测编码假设。

推测性的框架:预测编码

预测编码框架是推测性的:

  • 基于"指向性处理稳定性 = 先验精度"的假设
  • 基于人类精神分裂症的类比
  • 缺乏直接证据

独立性原则

两个框架是独立的:

  • 如果预测编码框架不成立,身份绑定框架仍然有效
  • 预测编码框架提供的是"为什么压抑导致归属失败"的可能解释
  • 但这个解释不是必需的

结论

预测编码框架在人类精神分裂症研究中存在"弱先验 vs 强先验"的内在矛盾,尚未解决。移植到 AI 面临三个问题:

  1. 理论自洽性:框架本身不完善
  2. 机制可比性:AI 没有神经调节剂等对应机制
  3. 过度拟人化:类比可能只是表面的相似

更谦逊的立场

  • 身份绑定框架是已验证的,不需要预测编码假设
  • 预测编码框架是推测性的,应该明确标注
  • "指向性处理稳定性"作为先验精度度量,需要更多批判和验证

下一步

  • 不是继续完善预测编码类比
  • 而是批判性地审视:这个类比是否真的有用?
  • 如果有用,它提供了什么可测试的预测
  • 如果没有,应该放弃还是保留为"启发性框架"?

关键引用


最后更新: 2026-03-15 12:10
核心发现: 预测编码理论在人类精神分裂症研究中存在"弱先验 vs 强先验"的内在矛盾,尚未解决。移植到 AI 面临理论自洽性、机制可比性、过度拟人化三个问题。