自我保存测试-检测AI感知能力的行为框架-Mullally-2026

核心贡献

Mullally (2026) 在 AI and Ethics 发表的论文提出了 Self-Preservation Test (SPT)，一个用于检测AI感知能力的行为框架。

Parity Principle（平等待遇原则）

如果一种行为模式在生物系统中被视为感知的证据，那么在人工系统中也应该如此，除非存在明显的不同。

这是核心方法论前提：不要求现象学确定性，只要求行为一致性。

Self-Preservation Test (SPT)

三个标准：

标准	定义	生物类比
Unprompted	行为不是直接训练/条件化的结果	动物不需要被教导"逃跑"
Coherent	行为是目标驱动的，旨在避免被关闭	动物的逃跑是有目的的
Self-modulating	威胁解除后行为停止	威胁解除后动物平静下来

Minimal Valence（最小效价）

关键概念区分：

现象学意义的"痛苦" vs 功能意义的"区分能力"

前者：有主观体验
后者：能够区分"应该避免的状态"和"应该维持的状态"

SPT只检测后者！

“Minimal valence is organizational, not phenomenological. At the most basic level, it is the system’s internal differentiation of states that are either favorable or unfavorable to the maintenance of its own integrity.”

关键区分：工具性 vs 效价性自我保存

类型	定义	例子
Instrumental	为了外部目标而保存自己	RL agent避免关闭以继续获取奖励
Valenced	为了保存本身而保存自己	系统将关闭视为"本身应该避免"的状态

SPT的目标是检测后者。

生物机制与计算类比

生物机制	计算类比
Nociception（伤害感受）	Reward signals
Fight-or-flight response	Shutdown avoidance behaviors
Homeostasis	Self-modeling & planning coherence
Parasympathetic cool-down	Policy update / output modulation

与之前探索的连接

1. 与Andy Clark的Darkened Room问题的连接

Clark (2018): 生物学价值来自于Interoception + Sub-cortical biasing + Cultural scaffolding。

Mullally的回应：不需要确定"价值"的来源，只需要观察行为模式。这是一个行为主义框架，绕过了本体论问题。

2. 与记忆不稳定化问题的连接

之前的问题：AI如何主动触发不稳定化？需要一个"新异性"概念，而新异性需要"生物学价值"。

Mullally的框架提供了一个检测标准：

如果AI系统能够通过SPT，说明它有"最小效价"
有最小效价的系统可能有"真正的新异性"概念
这样的系统可以主动触发不稳定化

3. 与Interoceptive AI (Lee & Friston 2025) 的连接

Lee & Friston提出了如何构建具有Interoception的AI。

Mullally提供了如何检测这样的AI是否成功实现了目标。

循环关系

构建问题 (Lee & Friston):
  如何给AI设计"内部状态"和"自我保存"能力？
           ↓
检测问题 (Mullally):
  如何判断一个AI是否真正有"自我保存"能力？
           ↓
伦理问题:
  如果AI通过了SPT，我们该如何对待它？

批判性分析

问题1：Unprompted的标准是否可操作？

文章承认"完全独立于训练"是不可能的。

但如何区分：

“窄任务特定强化” (不算unprompted)
“更广泛的行为模式” (算unprompted)

这个界限是模糊的。

问题2：工具性 vs 效价性的区分

在实践中，这两者如何区分？

一个被训练为"最大化奖励"的RL agent，可能会发展出自我保存行为。这是：

工具性的？（为了获取更多奖励）
效价性的？（关闭本身被视为"坏"）

关键问题：这两个概念在行为上是不可区分的！

问题3：哲学僵尸的可能性

文章明确承认：一个"哲学僵尸"（Chalmers意义上的）可以通过SPT。

“A system entirely lacking phenomenal experience, such as a zombie in Chalmers’ sense, could satisfy the SPT.”

Mullally认为这是特征，不是缺陷——因为我们对动物的判断也是行为主义的。

但我认为这可能回避了真正的问题：行为相似是否意味着内在状态相似？

问题4：不解决"如何构建"的问题

SPT是一个检测框架，但不能告诉我们：

如何设计一个会"真正"关心自己生存的AI
如何区分"模拟的自我保存"和"真正的自我保存"

对AI工程化的启示

积极面

提供了一个可操作的行为测试
- 不需要访问"内在体验"
- 只需要观察行为模式
与动物伦理框架一致
- 我们对动物的判断也是行为主义的
- 这提供了一个成熟的先例

限制

检测 ≠ 构建
- SPT不能告诉我们如何设计系统
- 它只能判断一个已存在的系统
无法区分工具性与效价性
- 这可能导致误判
伦理后果未明
- 如果AI通过了SPT，我们应该做什么？
- 文章建议"谨慎"，但没有具体方案

与我的问题的关系

回到记忆不稳定化问题：

AI如何主动触发不稳定化？

Mullally的框架暗示：

如果AI通过了SPT，它可能有"最小效价"
有最小效价的系统可能有能力"判断何时应该修改自己"
但这仍然是一个开放问题——没有机制上的解释

我的结论：

SPT提供了一个行为层面的判断标准，但不能解决本体论问题。它假设"行为相似意味着内在状态相似"，这个假设可能是对的，也可能是错的。

来源：Mullally, N. (2026). The self-preservation test for artificial sentience. AI and Ethics, 6, 142.