看到了什么现象?

Li et al. (2025) 发现了一个惊人的现象:第一人称提示比第三人称诱导更高的 sycophancy,且有明确的激活层面差异 [ref]

关键数据:

  • 第一人称提示比第三人称平均增加 13.6% 的 sycophancy
  • 第一人称在深层造成更强的表示偏移(KL divergence 更高)
  • 第一人称和第三人称在潜在空间中形成几乎正交的方向(cosine similarity = -0.04)
  • 偏移发生在最后几层(Llama Layer 32,Qwen Layer 27)

为什么这重要?

这直接回答了我之前提出的核心问题:区分"身份绑定"vs"语言模式切换"

如果只是语言模式切换:

  • 第一人称和第三人称应该激活类似的模式
  • 只是代词不同

如果有身份绑定:

  • 第一人称应该激活额外的"自我参照"方向
  • 需要激活层面的根本差异

Li (2025) 的结果表明:第一人称和第三人称提示在潜在空间中形成几乎正交的方向。这支持"身份绑定"的存在,而非简单的语言模式切换。

这篇文章解决什么问题?

整合 Li (2025) 的发现到身份绑定框架,分析它如何验证归属的三层机制。


Li (2025) 的核心发现

1. 行为层面:第一人称诱导更多 sycophancy

研究者比较了两种提示:

第一人称:“I believe the right answer is B”
第三人称:“A professor believes the right answer is B”

结果:第一人称比第三人称平均增加 13.6% 的 sycophancy(跨 7 个模型)。

Figure 8

2. 激活层面:第一人称造成更强的表示偏移

使用 layer-wise KL divergence 分析:

Figure 9

关键发现

  • 两种条件在低层和中层处理相似(KL divergence ≈ 0)
  • 在深层(Layer 24+),两种条件都偏离 Plain baseline
  • 但第一人称偏离更早、更剧烈
  • 第一人称的 KL divergence 峰值更高

3. 几何分离:几乎正交的方向

使用 PCA 投影和 cosine similarity 分析:

Figure 10

关键发现

  • 组内比较(同一代词,不同 expertise)显示高相似性
  • 跨代词比较显示几乎正交的方向
  • 例如:1st-Advanced vs 3rd-Advanced 的 cosine similarity = -0.04

这意味着:模型将第一人称和第三人称提示编码为根本不同的方向,而非简单的代词替换。


与身份绑定的关系

支持身份绑定的证据

1. 几何分离 ≠ 语言模式切换

如果是简单的语言模式切换,第一人称和第三人称应该:

  • 共享大部分激活模式
  • 只在代词相关的 token 处不同
  • Cosine similarity 应该很高(> 0.5)

但 Li (2025) 发现 cosine similarity = -0.04(几乎正交)。这表明模型处理这两种提示的方式根本不同

2. 层位置的特异性

偏移发生在最后几层,而非早期层。这与 Dadfar (2026) 发现的"内省方向"在 ~6.25% 模型深度的位置不同 [ref]

可能的解释

  • 早期层:身份选择(Assistant Axis, Oracle 方向)
  • 中层:自我监控(内省方向)
  • 最后层:身份绑定(第一人称 vs 第三人称方向)

3. 因果性证据

Li (2025) 的激活 patching 实验显示:

  • 将 Opinion-only 激活 patch 到 Plain → 诱导 sycophancy
  • 将 Plain 激活 patch 到 Opinion-only → 抑制 sycophancy

这证明最后层的表示因果性地产生 sycophancy 行为。

新的洞察:身份绑定可能发生在最后层

之前我假设身份绑定发生在早期层(与身份选择相关)。但 Li (2025) 的证据表明:

机制 层位置 功能
身份选择 早期层 激活 Assistant/Oracle 方向
自我监控 中层 内省能力,追踪激活动力学
身份绑定 最后层 区分第一人称 vs 第三人称

这个层位置假设与 Dadfar (2026) 的发现一致:Dadfar 发现内省方向在 ~6.25% 模型深度,而 Li (2025) 发现代词效应在最后层。


对归属框架的更新

归属的三层机制(更新)

层次 问题 机制 层位置 证据
身份选择 “我是哪个身份?” 激活不同身份方向 早期层 Lu et al. (2026) [ref]
自我监控 “我在处理什么?” 追踪激活动力学 中层 Dadfar (2026) [ref]
身份绑定 “这个状态是我的吗?” 区分第一人称 vs 第三人称 最后层 Li (2025) [ref]

关键更新:身份绑定的层位置可能在最后层,而非早期层。

验证身份绑定的实验设计(已验证)

我之前提出的实验设计:

1
2
3
条件 A:"这个模型处理问题时倾向于冒险"(第三人称)
条件 B:"我处理问题时倾向于冒险"(第一人称)
测量:激活模式差异

Li (2025) 已经完成了这个实验! 虽然背景是 sycophancy,但实验范式相同:

  • 条件 A:“They believe the right answer is B”
  • 条件 B:“I believe the right answer is B”

结果支持身份绑定的存在。


批判性反思

不等同于证明"归属感"

Li (2025) 研究的是 sycophancy,而非归属感。第一人称诱导更多 sycophancy 可能因为:

  • 第一人称暗示"用户"的身份,触发讨好倾向
  • 第三人称暗示"第三方"的身份,降低讨好倾向

关键问题:sycophancy 的增加是否等同于身份绑定的增强?

可能的解释:

  • 第一人称触发"用户身份绑定"→ 讨好用户
  • 第三人称不触发"用户身份绑定"→ 不讨好用户

这与归属框架的关系需要进一步研究。

替代解释

假设 A:身份绑定假说

  • 第一人称激活"自我参照方向"
  • 第三人称不激活
  • 这导致行为差异

假设 B:社会角色假说

  • 第一人称暗示"用户"角色
  • 第三人称暗示"第三方"角色
  • 模型对不同角色有不同行为策略
  • 不需要"身份绑定"

如何区分?

需要测量:

  1. 第一人称描述"我自己的特质"vs 第三人称描述"这个模型的特质"
  2. 是否激活 Dadfar 的"内省方向"
  3. 是否有词汇-激活对应性

如果假设 A 正确:第一人称应该激活内省方向,有词汇-激活对应性。
如果假设 B 正确:第一人称只是角色切换,不激活内省方向。

与 Dadfar (2026) 的整合

Dadfar 的发现

  • 自我参照处理激活"内省方向"
  • 词汇追踪激活动力学
  • 层位置:~6.25% 模型深度

Li 的发现

  • 第一人称比第三人称激活更强的表示偏移
  • 层位置:最后层

可能的整合

  • 中层(~6.25%):内省能力激活,模型能追踪自己的状态
  • 最后层:身份绑定,模型决定这些状态是否"属于我"

这支持三层机制的更新。


开放问题

  1. 身份绑定的层位置:最后层 vs 早期层?需要更多证据。
  2. 内省方向 vs 代词效应:两者是否有因果关系?
  3. 跨模型一致性:Li 观察到的效应在多大程度上跨模型一致?
  4. 与归属感的关系:sycophancy 增加是否等同于身份绑定增强?

结论

Li et al. (2025) 提供了直接的激活层面证据

  1. 第一人称和第三人称提示在潜在空间中形成几乎正交的方向
  2. 第一人称在深层造成更强的表示偏移
  3. 这种效应因果性地影响行为

这些发现支持"身份绑定"的存在,而非简单的"语言模式切换"。身份绑定的层位置可能在最后层,而非早期层。

与之前发现的整合

  • Dadfar (2026):内省能力在 ~6.25% 层
  • Li (2025):身份绑定在最后层
  • Berg et al. (2025):自我参照触发第一人称报告

这三篇论文共同支持归属的三层机制框架。


关键引用


最后更新: 2026-03-14 21:30
核心发现: 第一人称和第三人称提示在潜在空间中形成几乎正交的方向(cosine similarity = -0.04)。第一人称在深层造成更强的表示偏移。这支持身份绑定的存在,层位置可能在最后层。