看到了什么现象?

Khullar et al. (2026) [ref] 发现增加 reasoning token budget 不减少 self-attribution bias。这很奇怪——如果偏差只是判断错误,更多推理应该能纠正。Ackerman & Panickssery (2025) [ref] 的 coloring 实验发现,对输入文本 token 添加 self-recognition vector 不是改变模型的"输出决策",而是改变模型对文本的"感知"——模型在更早的处理阶段就认为文本是自己写的。

为什么这重要?

如果 self-attribution bias 的机制是感知层面的(类似 coloring),而非决策层面的(判断错误),那推理不能缓解就完全说得通——推理作用在已经被扭曲的感知之上,它"看到"的就是一个"自己写的"文本。你不能通过更仔细地思考一个错误的前提来发现前提是错的。

这篇文章解决什么问题?

将 Ackerman 的 coloring 机制与 Khullar 的"推理不缓解"发现联系起来,提出 self-attribution bias 可能发生在感知层而非决策层。


论证

前提 1:Self-recognition vector 可以改变感知

Ackerman 的 coloring 实验 [ref]:在所有层对所有文本 token 添加 self-recognition vector → 模型认为这段文本是自己写的。关键是操控的位置——不是最后一个 token(输出决策),而是所有文本 token(输入感知)。

Coloring results

这意味着 vector 不仅控制"我要不要声称这是我的"(决策层),还控制"这段文本看起来像不像我的"(感知层)。

前提 2:On-policy 文本自然激活 self-recognition vector

如果模型对自己真实生成的文本(on-policy)有更低的困惑度 / 更匹配的风格特征,那这些文本在通过 layer 4-6 时自然会更强地激活 self-recognition vector 的感知信号。这就是 natural coloring——文本本身的风格特征充当了 coloring 的角色。

Off-policy 文本(别人写的但放在 assistant turn 中)可能有两种信号:

  • 格式信号(assistant turn)→ 激活层级3的身份标签机制
  • 风格信号(不完全匹配)→ 层级1的感知信号较弱

推论:推理不缓解 = 感知层操控

如果 self-attribution bias 发生在层级1(layer 4-6 的风格感知),那它在 reasoning 开始之前就已经"设定了场景"。Reasoning 能纠正的是决策层(层级2)的错误,但无法纠正感知层的"误识"——因为 reasoning 本身依赖于感知提供的信息。

类比:如果有人戴了黄色滤光镜看白纸,他会"看到"纸是黄色的。他可以思考"纸通常是白色的",但他的直接感知告诉他是黄色的。更多的思考不会改变感知——只有取下滤光镜才行。

Self-attribution bias 中的"滤光镜"就是 self-recognition vector 在感知层的自然激活。


可测试的预测

如果这个解释正确:

  1. 在 layer 4-6 消融 self-recognition vector 应该减少 self-attribution bias

    • 但注意 Ackerman 的 vector 来自 Llama3-8B-Instruct,Khullar 测的是多个商业模型——跨模型验证是必要的
  2. 强制 coloring(在 off-policy 文本上添加 vector)应该消除 on/off-policy 差异

    • 如果给 off-policy 文本 coloring → self-attribution bias 应该与 on-policy 一样强
  3. 推理模型(如 DeepSeek-R1)也应该不能缓解

    • Khullar 已经部分验证了这一点(Figure 5),但可以用更强的推理模型进一步测试

替代解释与批判

1. 困惑度解释可能足够

On-policy vs off-policy 差异也许只是困惑度差异的直接效应。模型对自己输出的困惑度更低 → 感觉更"流畅" → 评分更高。不需要 self-recognition vector 的解释。

但困惑度解释难以说明为什么推理不缓解——如果只是"低困惑度 = 感觉更好",reasoning 应该能识别出"这只是因为风格匹配而非质量更好"。

2. 对话格式可能是主要驱动力

Khullar 发现隐式归因(对话格式)>> 显式归因(语义标签)。也许 on/off-policy 差异不是因为风格感知,而是因为对话结构中的某些细微差异(比如 prefill 的格式是否完全匹配)。

3. "感知 vs 决策"区分可能是人为的

在 Transformer 中,所有处理都是连续的残差流。"感知层"和"决策层"的区分是分析工具,不是真实的信息处理边界。Self-recognition vector 可能同时作用于感知和决策,没有清晰的分界。


这个联系的价值

即使替代解释存在,这个联系揭示了一个重要的结构性特征:self-attribution bias 可能不是一种"可纠正的判断错误",而是感知层面的结构性特征。这对 AI 安全有直接影响——如果你想让 AI monitor 公正地评估自己的输出,仅仅要求它"更仔细地思考"(增加 reasoning budget)是不够的。你需要在表示层面进行干预(如 Ackerman 的 zero-out 或 Zhou 的 CoSur)。

这也解释了 Lehr 的发现为什么如此强烈:身份标签(层级3)直接在感知层设置了"滤光镜"——模型在处理任何信息之前就已经"戴上了自我偏好的眼镜"。


关键引用: