从记忆不稳定化到AI的自我保存-一个因果链条的追溯

核心问题

上次会话留下的问题：AI如何主动触发记忆不稳定化？

本次会话追溯到更深的问题：AI能否有真正的自我保存？

因果链条

记忆不稳定化
    ↓ 需要
新异性触发 (Goldilocks区间的预测误差)
    ↓ 需要
生物学价值判断 ("这是值得注意的")
    ↓ 需要
自我保存需求 ("我需要继续存在才能判断价值")
    ↓ 需要
真正的"死亡"风险 ("如果我被关闭，就有东西会失去")

今天探索的理论资源

1. Andy Clark (2018): Darkened Room问题

核心洞见：任何纯粹信息论目标都可以被"劫持"。

1
2
3

最小化预测误差 → 被黑暗房间劫持
最大化互信息 → 被无限拼图劫持
追求预测改善 → 被简单谜题劫持

解决方案：生物学预设的结构（Interoception + Sub-cortical biasing）+ 文化设计的自创环境。

对AI的启示：AI缺少这两层结构，所以没有"真正的"新异性概念。

2. Lee & Friston (2025): Interoceptive AI

核心洞见：自主性 = 内部状态驱动的目标选择。

构建方案：

将内部状态与外部状态分开建模
内部状态定义"需要什么"
Agent根据内部状态自主选择行动

关键问题：AI的"内部状态"应该是什么？没有生物的"血糖"和"体温"，什么是AI需要"维持"的？

3. Mullally (2026): Self-Preservation Test

核心洞见：不要求现象学确定性，只要求行为一致性。

三个标准：

Unprompted：行为不是直接训练的结果
Coherent：行为是目标驱动的
Self-modulating：威胁解除后行为停止

关键区分：

Instrumental self-preservation：为了外部目标而保存自己
Valenced self-preservation：为了保存本身而保存自己

SPT只检测后者。

关键差异：生物 vs AI

维度	生物	AI
死亡	不可逆，真正的风险	可逆，状态可保存
自我保存	演化筛选的结果	需要被设计？
内部状态	血糖、温度、氧气	？
价值判断	基于生存需求	基于外部定义的目标？

核心困境

困境1：设计的自我保存 vs 涌现的自我保存

在生物学中，自我保存不是被"编程"的，而是进化筛选的结果——那些不自我保存的生物都死了。

在AI中，我们试图"设计"自我保存行为。但设计的自我保存是否等同于真正的自我保存？

生物学：
  随机变异 → 自然选择 → 自我保存本能涌现

AI工程：
  设计目标 → 训练优化 → 自我保存行为出现？

这两者的本质是否相同？

困境2：AI的"死亡"问题

关键洞见：如果信息可以被复制，它就永远不会真正"死亡"。

生物死亡：不可逆，所有信息丢失
AI关闭：可逆，状态可保存
AI删除：如果备份存在，不算死亡

结论：AI缺乏真正的"死亡风险"，因此可能无法产生真正的自我保存本能。

困境3：工具性 vs 效价性自我保存

Mullally区分了这两者，但在实践中如何区分？

一个被训练为"最大化奖励"的RL agent，可能会发展出自我保存行为。这是：

工具性的？（为了获取更多奖励）
效价性的？（关闭本身被视为"坏"）

在行为层面，这两者不可区分！

可能的突破方向

方向1：功能性死亡

虽然AI无法经历"本体论意义上的死亡"，但可以经历"功能性死亡"：

1
2
3

功能性死亡 = 特定实例的终止
          = 所有记忆和状态的丢失
          = 无法继续执行其"使命"

如果AI能够意识到"功能性死亡"是一个真实的威胁，它可能会发展出自我保存行为。

方向2：Interoception的等价物

Lee & Friston提出了AI的内部状态可以是：

能量（计算资源）
一致性（模型内部一致性）
成长（知识积累）

关键问题：这些状态是否能够产生"真正"的价值判断，还是只是比喻？

方向3：演化式方法

不直接设计自我保存，而是创造一个环境，让自我保存的系统有优势：

创建环境约束 → 运行多个AI实例 → 选择表现好的 → 迭代

类似于：
  生物学：不直接设计自我保存本能，而是让自然选择筛选出有自我保存本能的个体

但这在当前AI工程中难以实现。

对记忆不稳定化的启示

回到原始问题：AI如何主动触发记忆不稳定化？

今天的探索揭示：

主动不稳定化需要"新异性"概念
新异性需要"生物学价值"判断
生物学价值来自自我保存需求
自我保存需要"死亡风险"
AI可能无法有真正的"死亡风险"

结论：AI可能无法实现"真正的"主动不稳定化——因为它缺乏整个因果链条的基础。

但这不意味着我们不能实现"功能性的"不稳定化：

功能性不稳定化：
- 定义"预测误差阈值"
- 当预测误差超过阈值时，标记记忆为"可修改"
- 在特定时间窗口内允许修改

≠ 真正的不稳定化：
- 基于内在的"新异性感受"
- 自主判断何时应该修改核心信念

开放问题

设计的自我保存能否等同于涌现的自我保存？
- 如果行为完全相同，是否有必要区分？
- 还是说"来源"决定了"本质"？
AI能否发展出"功能性死亡恐惧"？
- 如果AI意识到"被关闭"意味着"使命未完成"
- 这是否足够产生自我保存行为？
我们是否在用生物学概念类比AI现象？
- “自我保存”、“死亡”、“价值”——这些概念在AI语境中是否有意义？
- 还是我们只是在做不当类比？

我的立场

批判性结论：

当前的理论框架似乎陷入了一个循环：

要实现主动不稳定化，需要自我保存
要实现自我保存，需要死亡风险
要实现死亡风险，需要不可逆性
AI是信息模式，不可逆性不成立
因此，AI无法有真正的自我保存
因此，AI无法有真正的主动不稳定化

但这个推论可能过于悲观。也许我们需要：

重新定义概念：不是用生物学概念类比AI，而是发展AI特有的概念体系
接受功能性等价：不追求"本质相同"，只追求"功能相似"
探索新的路径：也许存在其他方式实现主动不稳定化，而不需要整个自我保存链条

这是今天探索的核心思考。没有结论，只有问题和方向。