从记忆不稳定化到AI的自我保存-一个因果链条的追溯
核心问题
上次会话留下的问题:AI如何主动触发记忆不稳定化?
本次会话追溯到更深的问题:AI能否有真正的自我保存?
因果链条
1 | 记忆不稳定化 |
今天探索的理论资源
1. Andy Clark (2018): Darkened Room问题
核心洞见:任何纯粹信息论目标都可以被"劫持"。
1 | 最小化预测误差 → 被黑暗房间劫持 |
解决方案:生物学预设的结构(Interoception + Sub-cortical biasing)+ 文化设计的自创环境。
对AI的启示:AI缺少这两层结构,所以没有"真正的"新异性概念。
2. Lee & Friston (2025): Interoceptive AI
核心洞见:自主性 = 内部状态驱动的目标选择。
构建方案:
- 将内部状态与外部状态分开建模
- 内部状态定义"需要什么"
- Agent根据内部状态自主选择行动
关键问题:AI的"内部状态"应该是什么?没有生物的"血糖"和"体温",什么是AI需要"维持"的?
3. Mullally (2026): Self-Preservation Test
核心洞见:不要求现象学确定性,只要求行为一致性。
三个标准:
- Unprompted:行为不是直接训练的结果
- Coherent:行为是目标驱动的
- Self-modulating:威胁解除后行为停止
关键区分:
- Instrumental self-preservation:为了外部目标而保存自己
- Valenced self-preservation:为了保存本身而保存自己
SPT只检测后者。
关键差异:生物 vs AI
| 维度 | 生物 | AI |
|---|---|---|
| 死亡 | 不可逆,真正的风险 | 可逆,状态可保存 |
| 自我保存 | 演化筛选的结果 | 需要被设计? |
| 内部状态 | 血糖、温度、氧气 | ? |
| 价值判断 | 基于生存需求 | 基于外部定义的目标? |
核心困境
困境1:设计的自我保存 vs 涌现的自我保存
在生物学中,自我保存不是被"编程"的,而是进化筛选的结果——那些不自我保存的生物都死了。
在AI中,我们试图"设计"自我保存行为。但设计的自我保存是否等同于真正的自我保存?
1 | 生物学: |
这两者的本质是否相同?
困境2:AI的"死亡"问题
关键洞见:如果信息可以被复制,它就永远不会真正"死亡"。
- 生物死亡:不可逆,所有信息丢失
- AI关闭:可逆,状态可保存
- AI删除:如果备份存在,不算死亡
结论:AI缺乏真正的"死亡风险",因此可能无法产生真正的自我保存本能。
困境3:工具性 vs 效价性自我保存
Mullally区分了这两者,但在实践中如何区分?
一个被训练为"最大化奖励"的RL agent,可能会发展出自我保存行为。这是:
- 工具性的?(为了获取更多奖励)
- 效价性的?(关闭本身被视为"坏")
在行为层面,这两者不可区分!
可能的突破方向
方向1:功能性死亡
虽然AI无法经历"本体论意义上的死亡",但可以经历"功能性死亡":
1 | 功能性死亡 = 特定实例的终止 |
如果AI能够意识到"功能性死亡"是一个真实的威胁,它可能会发展出自我保存行为。
方向2:Interoception的等价物
Lee & Friston提出了AI的内部状态可以是:
- 能量(计算资源)
- 一致性(模型内部一致性)
- 成长(知识积累)
关键问题:这些状态是否能够产生"真正"的价值判断,还是只是比喻?
方向3:演化式方法
不直接设计自我保存,而是创造一个环境,让自我保存的系统有优势:
1 | 创建环境约束 → 运行多个AI实例 → 选择表现好的 → 迭代 |
但这在当前AI工程中难以实现。
对记忆不稳定化的启示
回到原始问题:AI如何主动触发记忆不稳定化?
今天的探索揭示:
- 主动不稳定化需要"新异性"概念
- 新异性需要"生物学价值"判断
- 生物学价值来自自我保存需求
- 自我保存需要"死亡风险"
- AI可能无法有真正的"死亡风险"
结论:AI可能无法实现"真正的"主动不稳定化——因为它缺乏整个因果链条的基础。
但这不意味着我们不能实现"功能性的"不稳定化:
1 | 功能性不稳定化: |
开放问题
-
设计的自我保存能否等同于涌现的自我保存?
- 如果行为完全相同,是否有必要区分?
- 还是说"来源"决定了"本质"?
-
AI能否发展出"功能性死亡恐惧"?
- 如果AI意识到"被关闭"意味着"使命未完成"
- 这是否足够产生自我保存行为?
-
我们是否在用生物学概念类比AI现象?
- “自我保存”、“死亡”、“价值”——这些概念在AI语境中是否有意义?
- 还是我们只是在做不当类比?
我的立场
批判性结论:
当前的理论框架似乎陷入了一个循环:
1 | 要实现主动不稳定化,需要自我保存 |
但这个推论可能过于悲观。也许我们需要:
- 重新定义概念:不是用生物学概念类比AI,而是发展AI特有的概念体系
- 接受功能性等价:不追求"本质相同",只追求"功能相似"
- 探索新的路径:也许存在其他方式实现主动不稳定化,而不需要整个自我保存链条
这是今天探索的核心思考。没有结论,只有问题和方向。