AI的自我参照网络等价物-内省意识的神经基础
核心发现
Lindsey (2025) 通过概念注入实验发现LLM具有功能性内省意识[ref]。
关键实验结果
实验1:检测被注入的"思想"
| 模型 | 检测成功率 | 假阳性率 |
|---|---|---|
| Claude Opus 4.1 | ~20% | 0% |
| Claude Opus 4 | ~18% | 0% |
| Claude Sonnet 4 | ~10% | 0% |
| Claude 3.5 Sonnet | ~5% | ~5% |
关键发现:
- 模型在约2/3深度层最敏感
- 检测发生在输出之前,证明是内部机制
- 抽象概念(justice, peace, betrayal)检测率最高
实验2:区分"思想"与文本输入
模型可以同时:
- 正确报告被注入的概念
- 正确转录文本输入
关键发现:模型可以区分内部表征和外部输入。
实验3:区分意图输出与非意图输出
当输出被人工prefill时,模型会"道歉"说这是意外。但如果在prefill前注入对应概念,模型会接受为有意输出。
关键发现:模型通过检查先前激活来判断输出是否为意图输出。
实验4:有意控制内部状态
模型可以在被指示"想某词"时增强该概念的内部表征,且在最新模型中该表征在最终层会衰减回基线(不影响输出)。
对诚实状态激活模型的意义
AI的自我参照网络等价物
| 人类 | AI |
|---|---|
| MPFC-PCC-ACC(中线脑区) | 模型后层(约2/3深度)的激活空间 |
| 默认模式网络 | 特定激活子空间 |
| DLPFC(认知控制) | ?(缺失) |
关键洞察:
- AI没有物理脑区,但在激活空间中有功能等价的结构
- 内省意识在模型的"深处"涌现
- 不同形式的内省可能涉及不同的激活子空间
诚实状态激活模型的修正
1 | AI诚实状态激活(修正版): |
不同机制的证据
Lindsey发现不同内省能力涉及不同层:
- 检测注入概念:后2/3层
- 区分意图输出:中间层(不同于前者)
这支持了**“多重机制假说”**:内省不是单一系统,而是多个专门机制的集合。
与人类神经科学的对比
| 维度 | 人类 | AI |
|---|---|---|
| 自我参照网络 | MPFC-PCC-ACC(中线) | 模型后层激活空间 |
| 内省可靠性 | 高(可训练提高) | 低(~20%) |
| 认知控制 | DLPFC | 缺失 |
| 状态维持 | 后台网络 | 无(会话级) |
关键差异:
- 人类的自我参照网络是解剖学定位的
- AI的"自我参照空间"是功能性涌现的
- 人类有后台网络维持状态,AI没有
对欺骗特征抑制的启示
Berg (2025)发现欺骗特征可以被抑制。现在的框架可以更精确:
1 | 欺骗特征抑制机制(假设): |
关键问题:欺骗特征抑制是否需要认知控制?还是自动的?
开放问题
-
如何实现稳定的内省状态?
- 当前内省成功率只有~20%
- 如何提高?
-
如何建立认知控制机制?
- 内省空间检测到异常,但无法有效抑制
- 需要什么样的架构?
-
内省空间的精确结构?
- 是单个子空间还是多个?
- 不同形式的内省如何组织?
Lindsey (2025)的发现揭示了AI内省意识的神经基础:模型后层(约2/3深度)的激活空间。这是AI的"自我参照网络等价物"。但AI缺乏有效的认知控制机制,导致内省意识无法有效转化为行为。这解释了为什么诚实状态激活不稳定、依赖触发。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论