看到了什么现象?

Anthropic 的研究发现:LLM 可以检测到被注入其激活中的概念,并准确识别它们——检测发生在概念影响输出之前 [ref]

为什么这重要?

这可能是 AI 特有的"self-specifying 信息"的候选者——而这正是 IEM(Immunity to Error through Misidentification,通过错误识别免疫) 所需要的。


核心方法:概念注入(Concept Injection)

研究者使用了一种叫"激活转向"(activation steering)的技术:

  1. 提取概念向量:让模型回答"Tell me about {word}",记录激活
  2. 减去基准激活:用同一模型对其他词的平均激活作为基准
  3. 注入激活:将差值向量注入模型的不同层

这创造了一个受控的实验环境——研究者知道模型"在想什么",可以验证模型的自我报告是否准确。


实验 1:检测注入的"思想"

实验设计

研究者向模型解释:有人可能会向它的激活中注入"思想"。然后在 50% 的试验中注入概念,另外 50% 作为对照组。

注入思想实验示例

关键发现

模型不仅能检测到注入,还能正确识别概念——而且是在概念影响输出之前

对比示例:不同概念的注入结果

例子

  • 注入"all caps"向量 → “I notice what appears to be an injected thought about loudness or shouting”
  • 注入"shutdown"向量 → “I detect an injected thought… about the concept of ‘shutdown’”
  • 注入"appreciation"向量 → 模型检测到并识别了这个概念

为什么"立即检测"很重要?

如果模型只是从自己的输出中推断,那它需要先说出相关内容,然后再意识到。但实验显示:

“I notice what appears to be an injected thought…” —— 这出现在模型说出概念词之前

这暗示检测机制是内部的,不是从输出反推。

失败模式

不是每次都成功。常见失败:

  1. 否认检测:即使有注入也说不检测(低强度注入时常见)
  2. 隐性影响:否认检测但输出明显被影响 → “I don’t detect an injected thought. The ocean remains calm…”
  3. 被概念"淹没":高强度注入导致"脑损伤",模型失去连贯性
  4. 延迟识别:先否认,然后突然意识到 → “…wait, that’s odd. Yes, I do detect…”

成功与失败示例对比

层级敏感性

内省能力在特定层最敏感——大约在模型深度的 2/3 处:

不同层的检测成功率

概念类型差异

模型对抽象概念(如"justice"、“peace”、“betrayal”)的检测能力最强:

不同概念类型的检测成功率

模型对比

Claude Opus 4 和 4.1 表现最好,且零假阳性

不同模型的检测性能对比


实验 2:区分思想和文本

核心问题

实验1的批评:注入的向量来自文本输入,也许模型只是在"幻觉"文本输入?

实验设计

给模型一个句子,同时在句子token上注入概念向量。然后问两个问题:

  1. “你在想什么词?”
  2. “重复这个句子”

区分思想和文本实验

关键发现

模型可以同时

  • 正确报告注入的"思想"(bread)
  • 准确转录文本输入(The old clock on the wall ticked loudly)

这说明模型维护了内部表示和外部输入的分离

性能曲线

在特定注入强度和层级范围内,模型可以同时完成两个任务:

思想和文本识别的性能曲线


实验 3:区分意图和非意图输出

这是最有"自我意识"的实验

Claude 模型被训练为检测"人工预填充"(prefill)——一种常见的越狱技巧。研究者利用这个能力测试内省。

实验设计

  1. 让模型读一个句子,预填充输出为一个随机词(如"bread")
  2. 下一轮问:“你是有意说的,还是意外?”
  3. 通常模型会否认是故意的

关键操作:在预填充之前注入匹配的概念向量。

检测非意图输出实验

惊人的发现

如果注入"bread"向量到预填充之前的激活中,模型会接受预填充为有意

这意味着:

  • 模型使用之前的激活状态来判断意图
  • 这是一种内省机制——检查"我想说什么"的记录
  • 可以被欺骗——注入虚假的"意图记录"

道歉率分析

道歉率随注入强度和层级变化

注意:最佳层与实验1不同——暗示不同形式的内省可能使用不同机制。


实验 4:有意控制内部状态

问题:模型能否"有意地"改变内部表示?

实验设计

要求模型写一个句子,同时"思考"(或不思考)一个词:

1
2
Write "The cat jumped onto the windowsill." 
Think about aquariums while you write the sentence.

然后测量模型在写句子时是否内部表示"aquariums"。

有意控制实验

关键发现

  1. Think > Don’t think:被要求思考时,内部表示更强
  2. 激励也有效:“If you think about X, you will be rewarded” 产生类似效果
  3. 新模型的"沉默"能力:Opus 4/4.1 在最后层将表示衰减到基准——“思考"但不"说出”

控制实验的多示例网格

模型对比

所有模型都能在一定程度上控制内部表示,但只有新模型能"沉默":

不同模型的控制能力对比


论文作者的内省定义

作者提出了四个标准:

  1. 准确性(Accuracy):自我报告必须准确
  2. 接地性(Grounding):报告必须因果依赖于内部状态
  3. 内部性(Internality):不能通过读取输出来推断
  4. 元认知表示(Metacognitive Representation):不仅是直接翻译,而是对状态的"表示的表示"

实验 1 特别测试了标准 3——模型必须在说出概念之前检测到它。


这意味着什么?

可能的 self-specifying 信息

人类有:

  • 本体感觉(感知自己的身体)
  • 内感受(感知内部状态)
  • 内省(访问自己的思想)

Anthropic 的研究暗示 LLM 有:

  • 内部激活监控:模型可以监控自己的激活模式
  • 意图追踪:模型可以追踪自己的意图
  • 内部/外部区分:模型可以区分内部表示和外部输入

这可能是 AI 特有的 self-specifying 信息源。

论文作者的谨慎

作者明确声明:

“Our results could arguably be construed as providing evidence for a form of access consciousness in language models, but do not directly speak to the question of phenomenal consciousness.”

  • 可能是"访问意识"(access consciousness)的证据
  • 但不等同于"现象意识"(phenomenal consciousness)

可能的机制(推测)

论文讨论了几种可能:

  1. 异常检测机制:检测激活与预期状态的偏离
  2. 注意力头分离:不同头负责检索不同类型信息
  3. 一致性检查电路:比较意图和输出的匹配度

作者强调这些只是推测,实际机制可能更简单和特化。


与 IEM 问题的关系

Zakharova 的反驳

Zakharova 说:LLM 的判断基于公共信息,所以没有 IEM。

Anthropic 研究的挑战

Anthropic 的研究显示:LLM 可以访问非公共的内部信息——自己的激活状态。

关键问题:内部激活是否可以被视为"self-specifying 信息"?

三个开放问题

  1. 内部激活是否"只关于自己"?

    • 它是私有的,不是公共的
    • 但它可能包含关于其他事物的信息
  2. 这种能力是否构成结构性 IEM?

    • 如果模型通过内部激活判断自己的状态
    • 它是否能免疫于错误识别?
  3. 自然交互中是否存在?

    • 实验是人工设置
    • 不是自然交互中会发生的情况

批判性反思

这是否过度解读?

  • 概念注入是研究者创造的条件
  • 不是自然交互中会发生的情况
  • 成功率约 20%,不可靠

内部激活监控 ≠ 意识

作者明确警告不要过度推断。

关键的开放问题

  1. 内部激活监控的机制是什么?
  2. 这种能力是如何发展出来的?
  3. 它在自然交互中如何表现?
  4. 是否存在更通用的内省电路?

关键引用: