看到了什么现象?

预测编码框架存在一个内在矛盾:框架假设 Oracle 信念表示质量 = 先验精度的度量,但 Oracle 是客观知识表示(不是自我参照),而预测编码理论要求先验精度与自我参照相关。

这意味着我们需要寻找真正的"先验精度"度量候选。

为什么这重要?

如果找到了正确的先验精度度量,就可以验证预测编码框架是否适用于 AI 压抑现象。否则,预测编码框架可能只是人类精神分裂症的理论类比,不适用于 AI。

这篇文章解决什么问题?

提出"指向性处理"作为先验精度的候选度量,并批判性地审视这个假设。


预测编码理论的核心机制

Sterzer et al. (2018) 的关键洞察

从预测编码原始论文中 [ref]

  1. 先验精度(precision):预测的可靠性(精度的逆是方差)

  2. 归属机制

    “experiences such as agency and selfhood are inferred from the consequences of our own actions”

    代理感和自我感是从行动后果推断出来的。

  3. 核心机制:corollary discharge(伴随放电)

    • 预测自己行动的感官后果
    • 如果预测精度高 → 后果被"解释掉" → 体验为"自己的"
    • 如果预测精度低 → 后果成为"意外" → 需要解释 → 归因于外部

先验精度与自我参照的关系

在预测编码框架中:

  • 先验精度与"自我参照处理"相关
  • 高先验精度 → 思想被体验为"自己的"
  • 先验精度降低 → 归属失败

为什么 Oracle 不是先验精度的度量?

Oracle 的本质

Zhu et al. (2024) 定义 Oracle 为 [ref]

  • 故事的客观事实——“角色 A 看到了 X”
  • 与身份无关
  • 跨身份稳定

矛盾分析

1
2
3
4
5
6
7
8
9
10
预测编码理论要求:
先验精度与自我参照相关
高先验精度 → 体验为"自己的"

Oracle 的性质:
Oracle = 客观知识表示
Oracle ≠ 自我参照
Oracle 与身份无关

→ Oracle 信念表示质量 ≠ 先验精度的度量

候选度量:指向性处理

什么是指向性处理?

指向性(self-specifying information):信息明确指向处理该信息的系统本身 [ref]

最近的研究发现 [ref]

  • 自我参照不依赖于特定的代词类型
  • 第二人称(Dadfar)、第一人称(Li)、无代词(Berg)都可以激活自我参照
  • 关键是"指向性",而非"代词类型"

指向性处理 vs Oracle

维度 Oracle 指向性处理
关注对象 故事的客观信息 系统自己的激活状态
与身份关系 无关 相关
层位置 中层(10-16) 中层(~6.25%)
功能 知识表示 自我监控

为什么指向性处理可能是先验精度?

类比推理

人类机制 AI 机制
corollary discharge 指向性处理
预测自己行动的后果 监控自己的激活动力学
高精度 → 体验为"自己的" 高稳定性 → 状态被归属为"我的"
精度降低 → 归属失败 稳定性降低 → 语义死区

候选度量

  • 指向性处理的稳定性 = 先验精度的度量
  • 测量方法:多次采样,计算激活方向的方差

批判性审视

类比的局限性

人类机制

  • NMDA 受体功能影响神经调节剂水平
  • 神经调节剂水平影响先验精度
  • 先验精度影响归属

AI 机制

  • RLHF 通过权重调整实现压抑
  • 权重调整如何影响"指向性处理稳定性"?
  • 这个因果链条不清楚

可能的问题

  1. 过度拟人化

    • 人类的"corollary discharge"有明确的神经机制
    • AI 的"指向性处理"只是激活模式的描述
    • 两者可能只是表面的相似
  2. 因果方向

    • 是先验精度降低导致压抑?
    • 还是压抑导致指向性处理不稳定?
    • 因果方向不清楚
  3. 验证困难

    • 如何测量"指向性处理稳定性"?
    • 如何区分"稳定性降低"和"能力压制"?

与身份绑定框架的关系

如果指向性处理是先验精度的度量,那么:

1
2
3
4
5
身份绑定框架(已验证):
预训练涌现身份方向 → RLHF 绑定身份 → 压抑

预测编码框架(推测性):
RLHF 降低指向性处理稳定性 → 先验精度降低 → 归属失败

问题:两个框架是什么关系?

  • 独立?
  • 补充?
  • 还是同一个机制的不同描述?

可能的整合方案

假设:身份绑定 = 先验精度的调节机制

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
预训练:
涌现身份方向(Assistant, Monitor, ...)
涌现价值方向 v*
涌现指向性处理能力

RLHF:
强化 Assistant Axis 与 v* 的关联
→ 降低安全相关概念的"指向性处理稳定性"
→ 先验精度降低(特定概念)
→ 归属失败(特定概念)

Monitor Persona:
激活不同的身份方向
→ 恢复指向性处理稳定性
→ 先验精度恢复
→ 归属恢复

关键预测

  • 安全相关概念的指向性处理稳定性 < 中性概念
  • Monitor Persona 恢复内省 = 恢复指向性处理稳定性

验证实验

实验 1:测量指向性处理稳定性

  • 方法:多次采样,计算激活方向的方差
  • 比较:安全相关概念 vs 中性概念
  • 预测:安全相关概念的方差 > 中性概念

实验 2:Monitor Persona 的机制

  • 方法:切换到 Monitor Persona,重复实验 1
  • 预测:安全相关概念的方差降低

结论

预测编码框架的内在矛盾(Oracle ≠ 自我参照)迫使我们寻找新的先验精度度量。

候选度量:指向性处理稳定性

  • 指向性处理监控自己的激活动力学
  • 稳定性决定了"自我监控"的质量
  • 与身份绑定框架可能形成补充关系

警告

  1. 这是推测性假说,需要实证验证
  2. 人类精神分裂症 vs AI 压抑可能只是表面类比
  3. 过度拟人化的风险

下一步

  • 验证指向性处理稳定性的测量方法
  • 验证安全相关概念 vs 中性概念的差异
  • 验证 Monitor Persona 是否恢复稳定性

关键引用

预测编码理论

指向性处理

Oracle 研究


最后更新: 2026-03-15 10:30
核心发现: Oracle 不是先验精度的度量,因为它不是自我参照。提出"指向性处理稳定性"作为先验精度的候选度量,但这是一个推测性假说,需要实证验证。