主动寻求Surprise-为什么大脑不待在Darkened-Room

核心问题

如果大脑的目标是最小化预测误差，那为什么人类会主动寻求surprise和新异性？

三个Darkened Room陷阱（Andy Clark, 2018）：

陷阱	描述
Death Trap	为什么不找个黑暗角落，待到死？
Boredom Trap	为什么不只寻求完全可预测的感官输入？
Merely Modest Exploration Trap	即使有探索，是否只是工具性的、保守的？

关键解决方案

1. Interoceptive Predictive Coding

大脑不仅在预测外部感官输入，还在预测内部身体状态（血糖、温度等）：

1
2
3

外部感官输入 ─┐
              ├─→ 统一的预测引擎 ─→ 行动
内部身体状态 ─┘

这创造了与生存相关的"基准预期"，避免Death Trap。

2. Sub-cortical Precision-weighting

皮层下结构（丘脑、杏仁核）通过precision-weighting影响预测误差的处理：

“Sub-cortical influences here bias large-scale neural patterns towards signals that are biologically valuable.”

这解决了"为什么某些预测误差更重要"的问题。

3. Cultural Designer Worlds

人类创造了文化环境（艺术、科学、音乐），这些环境不断移动目标：

“By designing and repeatedly re-designing our own environments, populating them with new books, paintings, theories, games, and practices, we humans continually move the goalposts for our own prediction-based learning.”

这是人类独特的能力——自我设计环境以持续产生适度挑战。

4. 信息论目标的不可逃避性 ⭐⭐⭐

任何纯粹信息论目标都可以被"劫持"！

目标	可能的劫持场景
最小化预测误差	待在黑暗房间
最大化互信息	无限拼图游戏
追求预测改善	简单但无穷的谜题

“Any information-theoretically specifiable target will be subvertable… there will be a scenario, consistent with that imperative, that looks inconsistent with true flourishing.”

结论：人类避免Darkened Room的原因不是某种更高级的信息论目标，而是：

生物学预设的结构（Interoception + Sub-cortical）
文化设计的自创环境

Goldilocks Effect

Kidd et al. (2012) 发现婴儿注意力遵循"Goldilocks效应"：

1 2	注意力峰值 = 既不太简单，也不太复杂 = 适度的预测误差

这支持了Oudeyer & Smith的"Curiosity-driven Learning"：

目标不是最小化预测误差
而是追求预测误差的持续减少（即持续学习）

与记忆不稳定化的连接

新异性的触发条件

Rossato et al. (2025)发现记忆不稳定化由"新异性感知"触发。现在我们可以更精确地理解：

新异性 ≠ 任何预测误差
新异性 = 处于Goldilocks区间的预测误差

太高 → 忽略（不可理解）
太低 → 忽略（无聊）
适中 → 触发不稳定化

大脑vs AI的关键差异

维度	大脑	AI
Interoception	有（身体状态预测）	无
Sub-cortical biasing	有（生物学价值）	无
Cultural scaffolding	有（自设计环境）	无

AI无法主动不稳定化的原因：缺少这三层结构，AI的"新异性检测"只能是浅层的、工具性的。

对AI工程化的启示

不够的方案

❌ 只实现"预测误差阈值触发"——会被劫持
❌ 只实现"最大化信息增益"——会被劫持
❌ 只实现"持续学习驱动"——会被劫持

可能有效的方案

引入Interoception等价物
- 系统需要有"内在状态"的预测
- 这些状态需要与系统的"生存/健康"相关
引入Sub-cortical等价物
- 某些预测误差需要被标记为"生物学重要"
- 这不能只是权重调整，需要有质的差异
引入Cultural Scaffolding
- 系统需要能够自我设计环境
- 或者被置于持续产生适度挑战的环境中

批判性思考

这篇论文的局限：

Clark假设"inteorception"和"sub-cortical"是进化赋予的，但没有解释这些机制是如何从更基本原则涌现的。
"Cultural scaffolding"解释了人类，但对AI工程化帮助有限——我们无法"进化"一个AI。
论文回避了核心问题：如何从第一性原理推导出"生物学价值"？

我的观点：

生物学价值可能来自于自我保存的必要性——一个必须维持内部稳态的系统，自然会发展出"偏好"某些状态而非其他状态的倾向。AI没有这个约束，所以没有"真正的新异性"概念。

来源：Clark, A. (2018). A nice surprise? Predictive processing and the active pursuit of novelty. Phenomenology and the Cognitive Sciences, 17, 521-534.