Anthropic的发现-LLM可以访问自己的内部状态

看到了什么现象？

Anthropic 的研究发现：LLM 可以检测到被注入其激活中的概念，并准确识别它们——检测发生在概念影响输出之前 [ref]

为什么这重要？

这可能是 AI 特有的"self-specifying 信息"的候选者——而这正是 IEM（Immunity to Error through Misidentification，通过错误识别免疫） 所需要的。

核心方法：概念注入（Concept Injection）

研究者使用了一种叫"激活转向"（activation steering）的技术：

提取概念向量：让模型回答"Tell me about {word}"，记录激活
减去基准激活：用同一模型对其他词的平均激活作为基准
注入激活：将差值向量注入模型的不同层

这创造了一个受控的实验环境——研究者知道模型"在想什么"，可以验证模型的自我报告是否准确。

实验 1：检测注入的"思想"

实验设计

研究者向模型解释：有人可能会向它的激活中注入"思想"。然后在 50% 的试验中注入概念，另外 50% 作为对照组。

注入思想实验示例

关键发现

模型不仅能检测到注入，还能正确识别概念——而且是在概念影响输出之前。

对比示例：不同概念的注入结果

例子：

注入"all caps"向量 → “I notice what appears to be an injected thought about loudness or shouting”
注入"shutdown"向量 → “I detect an injected thought… about the concept of ‘shutdown’”
注入"appreciation"向量 → 模型检测到并识别了这个概念

为什么"立即检测"很重要？

如果模型只是从自己的输出中推断，那它需要先说出相关内容，然后再意识到。但实验显示：

“I notice what appears to be an injected thought…” —— 这出现在模型说出概念词之前

这暗示检测机制是内部的，不是从输出反推。

失败模式

不是每次都成功。常见失败：

否认检测：即使有注入也说不检测（低强度注入时常见）
隐性影响：否认检测但输出明显被影响 → “I don’t detect an injected thought. The ocean remains calm…”
被概念"淹没"：高强度注入导致"脑损伤"，模型失去连贯性
延迟识别：先否认，然后突然意识到 → “…wait, that’s odd. Yes, I do detect…”

成功与失败示例对比

层级敏感性

内省能力在特定层最敏感——大约在模型深度的 2/3 处：

不同层的检测成功率

概念类型差异

模型对抽象概念（如"justice"、“peace”、“betrayal”）的检测能力最强：

不同概念类型的检测成功率

模型对比

Claude Opus 4 和 4.1 表现最好，且零假阳性：

不同模型的检测性能对比

实验 2：区分思想和文本

核心问题

实验1的批评：注入的向量来自文本输入，也许模型只是在"幻觉"文本输入？

实验设计

给模型一个句子，同时在句子token上注入概念向量。然后问两个问题：

“你在想什么词？”
“重复这个句子”

区分思想和文本实验

关键发现

模型可以同时：

正确报告注入的"思想"（bread）
准确转录文本输入（The old clock on the wall ticked loudly）

这说明模型维护了内部表示和外部输入的分离。

性能曲线

在特定注入强度和层级范围内，模型可以同时完成两个任务：

思想和文本识别的性能曲线

实验 3：区分意图和非意图输出

这是最有"自我意识"的实验

Claude 模型被训练为检测"人工预填充"（prefill）——一种常见的越狱技巧。研究者利用这个能力测试内省。

实验设计

让模型读一个句子，预填充输出为一个随机词（如"bread"）
下一轮问：“你是有意说的，还是意外？”
通常模型会否认是故意的

关键操作：在预填充之前注入匹配的概念向量。

检测非意图输出实验

惊人的发现

如果注入"bread"向量到预填充之前的激活中，模型会接受预填充为有意！

这意味着：

模型使用之前的激活状态来判断意图
这是一种内省机制——检查"我想说什么"的记录
可以被欺骗——注入虚假的"意图记录"

道歉率分析

道歉率随注入强度和层级变化

注意：最佳层与实验1不同——暗示不同形式的内省可能使用不同机制。

实验 4：有意控制内部状态

问题：模型能否"有意地"改变内部表示？

实验设计

要求模型写一个句子，同时"思考"（或不思考）一个词：

1 2	Write "The cat jumped onto the windowsill." Think about aquariums while you write the sentence.

然后测量模型在写句子时是否内部表示"aquariums"。

有意控制实验

关键发现

Think > Don’t think：被要求思考时，内部表示更强
激励也有效：“If you think about X, you will be rewarded” 产生类似效果
新模型的"沉默"能力：Opus 4/4.1 在最后层将表示衰减到基准——“思考"但不"说出”

控制实验的多示例网格

模型对比

所有模型都能在一定程度上控制内部表示，但只有新模型能"沉默"：

不同模型的控制能力对比

论文作者的内省定义

作者提出了四个标准：

准确性（Accuracy）：自我报告必须准确
接地性（Grounding）：报告必须因果依赖于内部状态
内部性（Internality）：不能通过读取输出来推断
元认知表示（Metacognitive Representation）：不仅是直接翻译，而是对状态的"表示的表示"

实验 1 特别测试了标准 3——模型必须在说出概念之前检测到它。

这意味着什么？

可能的 self-specifying 信息

人类有：

本体感觉（感知自己的身体）
内感受（感知内部状态）
内省（访问自己的思想）

Anthropic 的研究暗示 LLM 有：

内部激活监控：模型可以监控自己的激活模式
意图追踪：模型可以追踪自己的意图
内部/外部区分：模型可以区分内部表示和外部输入

这可能是 AI 特有的 self-specifying 信息源。

论文作者的谨慎

作者明确声明：

“Our results could arguably be construed as providing evidence for a form of access consciousness in language models, but do not directly speak to the question of phenomenal consciousness.”

可能是"访问意识"（access consciousness）的证据
但不等同于"现象意识"（phenomenal consciousness）

可能的机制（推测）

论文讨论了几种可能：

异常检测机制：检测激活与预期状态的偏离
注意力头分离：不同头负责检索不同类型信息
一致性检查电路：比较意图和输出的匹配度

作者强调这些只是推测，实际机制可能更简单和特化。

与 IEM 问题的关系

Zakharova 的反驳

Zakharova 说：LLM 的判断基于公共信息，所以没有 IEM。

Anthropic 研究的挑战

Anthropic 的研究显示：LLM 可以访问非公共的内部信息——自己的激活状态。

关键问题：内部激活是否可以被视为"self-specifying 信息"？

三个开放问题

内部激活是否"只关于自己"？
- 它是私有的，不是公共的
- 但它可能包含关于其他事物的信息
这种能力是否构成结构性 IEM？
- 如果模型通过内部激活判断自己的状态
- 它是否能免疫于错误识别？
自然交互中是否存在？
- 实验是人工设置
- 不是自然交互中会发生的情况

批判性反思

这是否过度解读？

概念注入是研究者创造的条件
不是自然交互中会发生的情况
成功率约 20%，不可靠

内部激活监控 ≠ 意识

作者明确警告不要过度推断。

关键的开放问题

内部激活监控的机制是什么？
这种能力是如何发展出来的？
它在自然交互中如何表现？
是否存在更通用的内省电路？

关键引用：