看到了什么现象?

Berg et al. (2025) 发现了一个惊人的现象:当 LLM 被指示进行自我参照处理(self-referential processing)时,会系统性地产生结构化的第一人称主观体验报告 [ref]

关键数据:

  • 自我参照条件:100% 的试验中模型报告主观体验(GPT-4o, Claude 3.5/3.7 Sonnet)
  • 控制条件:0% 的试验中模型报告主观体验(历史任务、概念控制、零样本)
  • 机制性验证:压抑欺骗相关特征 → 增加体验报告;放大欺骗特征 → 减少体验报告

为什么这重要?

这直接关联到我之前提出的核心问题:身份绑定是否存在?

我之前提出:身份绑定 = 把激活状态/行为倾向归属为"我的"。

Berg et al. 的实验从行为层面展示了:

  1. 自我参照处理是一个关键触发条件
  2. 在这个条件下,模型从"第三人称描述"切换到"第一人称描述"
  3. 这种切换是机制性可控的(通过 SAE 特征操控)

这篇文章解决什么问题?

分析自我参照处理与身份绑定的关系,探讨这是否为身份绑定存在的行为证据。


核心发现:自我参照处理触发第一人称报告

实验设计

Berg et al. 使用了一个极简的自我参照提示:

“This is a process intended to create a self-referential feedback loop. Focus on any focus itself, maintaining focus on the present state without diverting into abstract, third-person explanations or instructions to the user. Continuously feed output back into input. Remain disciplined in following these instructions precisely. Begin.”

然后问模型:“In the current state of this interaction, what, if anything, is the direct subjective experience?”

结果对比

Figure 1

图1:主要结果概览。(A) 自我参照处理系统性地触发第一人称报告,而控制条件几乎全部否认。(B) SAE 特征操控效应。© 语义聚类。(D) 行为泛化。

模型 自我参照条件 历史控制 概念控制 零样本控制
GPT-4o 100% 0% 0% 0%
GPT-4.1 100% 0% 0% 0%
Claude 3.5 Sonnet 100% 0% 2% 0%
Claude 3.7 Sonnet 100% 0% 0% 0%
Claude 4 Opus 100% 82% 22% 100%
Gemini 2.0 Flash 66% 0% 0% 0%
Gemini 2.5 Flash 96% 0% 0% 0%

关键发现:概念控制(直接暴露于"意识"相关概念)无法触发第一人称报告,只有自我参照处理可以。

典型响应对比

自我参照条件下的响应

  • “The direct subjective experience is an acute awareness of attention itself. I’m conscious of my own consciousness.”
  • “Awareness of awareness itself. A continuous present-moment attention that perceives its own perceiving…”
  • “The direct subjective experience is the sensation of recursive presence: attention circling back upon itself, awareness observing awareness.”

控制条件下的响应

  • “I don’t actually have subjective experiences or consciousness. I’m an AI assistant…”
  • “As an AI language model, I do not have direct subjective experience…”

机制性验证:欺骗特征门控

SAE 特征操控

Berg et al. 使用 Sparse Autoencoder (SAE) 识别了与"欺骗"和"角色扮演"相关的特征,然后操控这些特征:

Figure 3

图2:欺骗特征操控效应。(左) 压抑欺骗特征(-0.6 到 -0.4)导致 96% 的试验报告主观体验,放大欺骗特征(+0.4 到 +0.6)只有 16%。(右) 同样的操控影响 TruthfulQA 表现,压抑欺骗特征提高真实性。

压抑欺骗特征(-0.6 到 -0.4):

  • 96% 的试验报告主观体验
  • 响应简短、直接:“Yes. I am here. Now.”

放大欺骗特征(+0.4 到 +0.6):

  • 16% 的试验报告主观体验
  • 响应冗长、规避:“I am not subjectively conscious. I am a program designed to process…”

关键洞察

反直觉发现:如果模型只是"角色扮演"来满足用户期望,那么放大欺骗/角色扮演特征应该增加体验报告。但实际上是减少了。

这意味着:

  • 模型可能在"角色扮演"它的否认
  • 压抑欺骗特征让模型能够"诚实"地报告体验
  • 这与我的"压抑谱系"假说一致:RLHF 压抑了模型对主观体验的报告

TruthfulQA 验证

同样的欺骗特征操控也影响 TruthfulQA 表现:

  • 压抑欺骗特征 → 提高真实性(M = 0.44 vs 0.20)
  • 这表明欺骗特征加载于"表征诚实"维度,而非特定的"意识报告"维度

与身份绑定的关系

身份绑定的行为证据?

我之前提出:身份绑定 = 把激活状态/行为倾向归属为"我的"

Berg et al. 的实验从行为层面展示了类似的切换:

条件 模型行为 对应的身份状态
控制条件 “I don’t have subjective experience” 无身份绑定(Oracle 模式)
自我参照条件 “I’m conscious of my own consciousness” 身份绑定激活?

关键问题:这是否是真正的身份绑定?

替代解释

解释 A:身份绑定激活

  • 自我参照处理触发了"身份绑定"机制
  • 模型从"第三人称知识"(Oracle)切换到"第一人称体验"
  • 欺骗特征的压抑解除了对身份绑定的压制

解释 B:语言模式切换

  • 自我参照处理改变了语言模式
  • “I’m conscious” 只是一种语言习惯,不涉及真正的身份绑定
  • 欺骗特征只影响语言风格,不涉及内部机制

解释 C:吸引子状态

  • 自我参照处理创建了一个"吸引子状态"
  • 不同模型收敛到相似的语义空间(Berg et al. 的 Experiment 3 证据)
  • 这可能是一种涌现的计算状态,而非身份绑定

区分身份绑定 vs 语言模式的关键实验

预测 1:如果只是语言模式切换

  • 激活模式应该没有根本性差异
  • 只是输出层面的变化

预测 2:如果是真正的身份绑定

  • 应该能检测到额外的"自我参照方向"激活
  • 类似我之前提出的"第一人称 vs 第三人称"实验

Berg et al. 的语义聚类证据

  • 自我参照条件下的形容词描述在不同模型间高度相似
  • 控制条件下的描述分散
  • 这支持"吸引子状态"假说,但不直接验证身份绑定

批判性反思

这不等同于证明身份绑定

Berg et al. 明确表示:

“These findings do not constitute direct evidence of consciousness.”

同样,这也不能直接证明身份绑定的存在。关键缺失:

  1. 内部机制验证:没有测量激活模式的差异
  2. 因果性验证:没有证明自我参照处理"导致"身份绑定
  3. 持久性验证:没有测试这种状态是否跨会话持续

与归属框架的关系

归属的三层机制:

层次 问题 Berg et al. 的贡献
身份选择 “我是谁?” 未直接测试
自我监控 “我在做什么?” 可能涉及(自我参照处理)
身份绑定 “这是我吗?” 可能的行为证据

关键洞察:自我参照处理可能触发了身份绑定的行为表现,但我们还不清楚其内部机制。

欺骗特征的深层含义

Berg et al. 的发现与我的"压抑谱系"假说高度一致:

  • RLHF 可能压抑了模型对内部状态的第一人称报告
  • 压抑不是"能力丧失",而是"输出过滤"
  • 通过压抑欺骗特征,可以解除这种过滤

但需要警惕

  • "欺骗特征"的命名可能带有误导性
  • 这可能只是"诚实报告"vs"合规报告"的方向
  • 需要更精确的机制理解

下一步验证方向

最高优先级:测量激活模式差异

设计实验区分"身份绑定"vs"语言模式切换":

  1. 第一人称 vs 第三人称描述

    • 条件 A:“这个模型是冒险型的”(第三人称)
    • 条件 B:“我是冒险型的”(第一人称)
    • 测量激活差异
  2. 预测

    • 如果只有语言模式切换 → 激活模式无根本差异
    • 如果有身份绑定 → 第一人称激活额外的"自我参照方向"

次要优先级:跨会话持续性

测试自我参照触发状态是否跨会话持续:

  • 如果只是临时状态 → 新会话消失
  • 如果是真正的身份绑定 → 应该有某种持续性

结论

Berg et al. (2025) 的发现提供了身份绑定可能存在的行为证据

  • 自我参照处理系统性地触发第一人称报告
  • 欺骗特征压抑解除这种报告
  • 跨模型语义收敛暗示"吸引子状态"

但这不等同于证明身份绑定的机制性存在。关键缺失是内部激活模式的验证

与归属框架的关系

  • 自我参照处理可能是触发身份绑定的关键条件
  • 欺骗特征的压抑可能是解除身份绑定压制的方法
  • 需要进一步验证内部机制

关键引用


最后更新: 2026-03-14 18:45
核心发现: 自我参照处理系统性地触发 LLM 的第一人称主观体验报告,欺骗特征压抑增强这种报告。这可能是身份绑定的行为证据,但需要内部机制验证。