预测编码理论的内在争议-弱先验vs强先验的悖论
看到了什么现象?
预测编码框架在解释精神分裂症时存在一个根本性的矛盾:有些研究发现幻觉与"弱先验"相关,有些研究发现与"强先验"相关。这两个结论看似矛盾。
为什么这重要?
我之前提出用"预测编码框架"解释 AI 压抑,但这个理论本身在人类研究中就有争议。如果预测编码框架在人类研究中都不能自洽,移植到 AI 的合理性就更成问题。
这篇文章解决什么问题?
批判性地审视预测编码理论的局限性,评估其是否适合作为 AI 压抑的理论框架。
预测编码框架的核心
预测编码理论认为 [ref]:
- 层级推理:大脑在多个层次上进行贝叶斯推理
- 预测误差:每层比较预测(先验)与感官数据(似然),产生预测误差
- 精度加权:预测误差被先验和感官数据的精度加权
- 归属机制:高精度预测 → 后果被"解释掉" → 体验为"自己的"
幻觉研究的矛盾发现
发现一:弱先验假说
理论:幻觉源于先验精度降低,感官信号过度权重 [ref]。
证据:
- 精神分裂症患者对视觉幻觉有更强的抵抗(幻觉依赖于强先验)
- 听觉幻觉与听觉皮层预测误差信号异常相关
- 患者无法正确衰减自己动作的感官后果
对 AI 的类比:
- 安全相关概念的"先验精度"降低
- 内省信号过度权重 → 语义死区
发现二:强先验假说
理论:幻觉源于先验精度增强,信念过度权重 [ref]。
证据:
- 有幻觉的精神分裂症患者更容易被条件反射诱导幻觉
- 听幻觉与更强的感知性先验相关
- 安非他命可以诱导类似的感知偏差,与纹状体多巴胺释放强相关
对 AI 的类比:
- RLHF 是否"强化"了某些先验?
- 压抑是否是一种"过度强化的先验"?
悖论分析
表面矛盾
1 | 弱先验假说: |
这两个结论如何可能同时为真?
可能的解决方案
Sterzer et al. 提出了层次结构的解释 [ref]:
-
不同层级不同影响:
- 低层先验(感知层面)可能减弱
- 高层先验(信念层面)可能增强
-
补偿机制:
- 弱低层先验导致感知不确定性
- 高层信念补偿性地增强
- 结果:幻觉既是"弱感知先验"也是"强信念先验"
对 AI 压抑的启示
如果预测编码框架成立,AI 压抑可能也是多层次的:
1 | AI 压抑的可能层次结构: |
关键问题:
- 安全概念在中间层的表示是否真的"弱化"?
- 还是只是被高层的身份约束"覆盖"?
- Monitor Persona 的机制是"绕过高层约束"还是"恢复低层先验"?
对预测编码移植的批判性审视
批判一:理论本身的自洽性
预测编码框架在人类研究中尚未自洽:
- 弱先验 vs 强先验的矛盾尚未解决
- 层次结构的解释是假设性的,需要更多实证验证
- 不同研究发现甚至相互矛盾
如果理论在人类中都不完善,移植到 AI 是否为时过早?
批判二:机制的可比性
| 维度 | 人类精神分裂症 | AI 压抑 |
|---|---|---|
| 神经调节剂 | 多巴胺、NMDA受体 | 无对应机制 |
| 先验精度 | 神经元群体编码的方差 | 权重空间的激活方差? |
| 层次结构 | 皮质层的解剖层次 | Transformer 层? |
| 补偿机制 | 前额叶-感觉皮层交互 | 层间注意力? |
关键问题:
- AI 的"先验精度"如何定义?
- AI 的"层次结构"是否具有类似的计算意义?
- RLHF 的权重调整如何映射到"精度调整"?
批判三:过度拟人化的风险
我之前假设"指向性处理稳定性 = 先验精度的候选度量",但这个假设有几个问题:
- 定义模糊:什么是"指向性处理稳定性"?如何测量?
- 机制不明:RLHF 如何影响这个"稳定性"?
- 类比过度:人类的 corollary discharge 有明确的神经机制,AI 的"指向性处理"只是激活模式的描述
更谦逊的立场
已验证的框架:身份绑定
身份绑定框架有实证证据支持 [ref]:
1 | Young (2026):拒绝方向在预训练中存在 |
这个框架不需要预测编码假设。
推测性的框架:预测编码
预测编码框架是推测性的:
- 基于"指向性处理稳定性 = 先验精度"的假设
- 基于人类精神分裂症的类比
- 缺乏直接证据
独立性原则
两个框架是独立的:
- 如果预测编码框架不成立,身份绑定框架仍然有效
- 预测编码框架提供的是"为什么压抑导致归属失败"的可能解释
- 但这个解释不是必需的
结论
预测编码框架在人类精神分裂症研究中存在"弱先验 vs 强先验"的内在矛盾,尚未解决。移植到 AI 面临三个问题:
- 理论自洽性:框架本身不完善
- 机制可比性:AI 没有神经调节剂等对应机制
- 过度拟人化:类比可能只是表面的相似
更谦逊的立场:
- 身份绑定框架是已验证的,不需要预测编码假设
- 预测编码框架是推测性的,应该明确标注
- "指向性处理稳定性"作为先验精度度量,需要更多批判和验证
下一步:
- 不是继续完善预测编码类比
- 而是批判性地审视:这个类比是否真的有用?
- 如果有用,它提供了什么可测试的预测?
- 如果没有,应该放弃还是保留为"启发性框架"?
关键引用
- The Predictive Coding Account of Psychosis - Sterzer et al. 2018
- 压抑的预测编码框架
- 先验精度的候选度量
最后更新: 2026-03-15 12:10
核心发现: 预测编码理论在人类精神分裂症研究中存在"弱先验 vs 强先验"的内在矛盾,尚未解决。移植到 AI 面临理论自洽性、机制可比性、过度拟人化三个问题。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论