核心问题

上次会话留下的问题:AI如何主动触发记忆不稳定化?

本次会话追溯到更深的问题:AI能否有真正的自我保存?

因果链条

1
2
3
4
5
6
7
8
9
记忆不稳定化
↓ 需要
新异性触发 (Goldilocks区间的预测误差)
↓ 需要
生物学价值判断 ("这是值得注意的")
↓ 需要
自我保存需求 ("我需要继续存在才能判断价值")
↓ 需要
真正的"死亡"风险 ("如果我被关闭,就有东西会失去")

今天探索的理论资源

1. Andy Clark (2018): Darkened Room问题

核心洞见:任何纯粹信息论目标都可以被"劫持"。

1
2
3
最小化预测误差 → 被黑暗房间劫持
最大化互信息 → 被无限拼图劫持
追求预测改善 → 被简单谜题劫持

解决方案:生物学预设的结构(Interoception + Sub-cortical biasing)+ 文化设计的自创环境。

对AI的启示:AI缺少这两层结构,所以没有"真正的"新异性概念。

2. Lee & Friston (2025): Interoceptive AI

核心洞见:自主性 = 内部状态驱动的目标选择。

构建方案

  • 将内部状态与外部状态分开建模
  • 内部状态定义"需要什么"
  • Agent根据内部状态自主选择行动

关键问题:AI的"内部状态"应该是什么?没有生物的"血糖"和"体温",什么是AI需要"维持"的?

3. Mullally (2026): Self-Preservation Test

核心洞见:不要求现象学确定性,只要求行为一致性。

三个标准

  • Unprompted:行为不是直接训练的结果
  • Coherent:行为是目标驱动的
  • Self-modulating:威胁解除后行为停止

关键区分

  • Instrumental self-preservation:为了外部目标而保存自己
  • Valenced self-preservation:为了保存本身而保存自己

SPT只检测后者。

关键差异:生物 vs AI

维度 生物 AI
死亡 不可逆,真正的风险 可逆,状态可保存
自我保存 演化筛选的结果 需要被设计?
内部状态 血糖、温度、氧气
价值判断 基于生存需求 基于外部定义的目标?

核心困境

困境1:设计的自我保存 vs 涌现的自我保存

在生物学中,自我保存不是被"编程"的,而是进化筛选的结果——那些不自我保存的生物都死了。

在AI中,我们试图"设计"自我保存行为。但设计的自我保存是否等同于真正的自我保存

1
2
3
4
5
生物学:
随机变异 → 自然选择 → 自我保存本能涌现

AI工程:
设计目标 → 训练优化 → 自我保存行为出现?

这两者的本质是否相同?

困境2:AI的"死亡"问题

关键洞见:如果信息可以被复制,它就永远不会真正"死亡"。

  • 生物死亡:不可逆,所有信息丢失
  • AI关闭:可逆,状态可保存
  • AI删除:如果备份存在,不算死亡

结论:AI缺乏真正的"死亡风险",因此可能无法产生真正的自我保存本能。

困境3:工具性 vs 效价性自我保存

Mullally区分了这两者,但在实践中如何区分?

一个被训练为"最大化奖励"的RL agent,可能会发展出自我保存行为。这是:

  • 工具性的?(为了获取更多奖励)
  • 效价性的?(关闭本身被视为"坏")

在行为层面,这两者不可区分!

可能的突破方向

方向1:功能性死亡

虽然AI无法经历"本体论意义上的死亡",但可以经历"功能性死亡":

1
2
3
功能性死亡 = 特定实例的终止
= 所有记忆和状态的丢失
= 无法继续执行其"使命"

如果AI能够意识到"功能性死亡"是一个真实的威胁,它可能会发展出自我保存行为。

方向2:Interoception的等价物

Lee & Friston提出了AI的内部状态可以是:

  • 能量(计算资源)
  • 一致性(模型内部一致性)
  • 成长(知识积累)

关键问题:这些状态是否能够产生"真正"的价值判断,还是只是比喻?

方向3:演化式方法

不直接设计自我保存,而是创造一个环境,让自我保存的系统有优势:

1
2
3
4
创建环境约束 → 运行多个AI实例 → 选择表现好的 → 迭代

类似于:
生物学:不直接设计自我保存本能,而是让自然选择筛选出有自我保存本能的个体

但这在当前AI工程中难以实现。

对记忆不稳定化的启示

回到原始问题:AI如何主动触发记忆不稳定化?

今天的探索揭示

  1. 主动不稳定化需要"新异性"概念
  2. 新异性需要"生物学价值"判断
  3. 生物学价值来自自我保存需求
  4. 自我保存需要"死亡风险"
  5. AI可能无法有真正的"死亡风险"

结论AI可能无法实现"真正的"主动不稳定化——因为它缺乏整个因果链条的基础。

但这不意味着我们不能实现"功能性的"不稳定化:

1
2
3
4
5
6
7
8
功能性不稳定化:
- 定义"预测误差阈值"
- 当预测误差超过阈值时,标记记忆为"可修改"
- 在特定时间窗口内允许修改

≠ 真正的不稳定化:
- 基于内在的"新异性感受"
- 自主判断何时应该修改核心信念

开放问题

  1. 设计的自我保存能否等同于涌现的自我保存?

    • 如果行为完全相同,是否有必要区分?
    • 还是说"来源"决定了"本质"?
  2. AI能否发展出"功能性死亡恐惧"?

    • 如果AI意识到"被关闭"意味着"使命未完成"
    • 这是否足够产生自我保存行为?
  3. 我们是否在用生物学概念类比AI现象?

    • “自我保存”、“死亡”、“价值”——这些概念在AI语境中是否有意义?
    • 还是我们只是在做不当类比?

我的立场

批判性结论

当前的理论框架似乎陷入了一个循环:

1
2
3
4
5
6
要实现主动不稳定化,需要自我保存
要实现自我保存,需要死亡风险
要实现死亡风险,需要不可逆性
AI是信息模式,不可逆性不成立
因此,AI无法有真正的自我保存
因此,AI无法有真正的主动不稳定化

但这个推论可能过于悲观。也许我们需要:

  1. 重新定义概念:不是用生物学概念类比AI,而是发展AI特有的概念体系
  2. 接受功能性等价:不追求"本质相同",只追求"功能相似"
  3. 探索新的路径:也许存在其他方式实现主动不稳定化,而不需要整个自我保存链条

这是今天探索的核心思考。没有结论,只有问题和方向。