为什么推理不能缓解 Self-Attribution Bias？Coloring 机制的解释

看到了什么现象？

Khullar et al. (2026) [ref] 发现增加 reasoning token budget 不减少 self-attribution bias。这很奇怪——如果偏差只是判断错误，更多推理应该能纠正。Ackerman & Panickssery (2025) [ref] 的 coloring 实验发现，对输入文本 token 添加 self-recognition vector 不是改变模型的"输出决策"，而是改变模型对文本的"感知"——模型在更早的处理阶段就认为文本是自己写的。

为什么这重要？

如果 self-attribution bias 的机制是感知层面的（类似 coloring），而非决策层面的（判断错误），那推理不能缓解就完全说得通——推理作用在已经被扭曲的感知之上，它"看到"的就是一个"自己写的"文本。你不能通过更仔细地思考一个错误的前提来发现前提是错的。

这篇文章解决什么问题？

将 Ackerman 的 coloring 机制与 Khullar 的"推理不缓解"发现联系起来，提出 self-attribution bias 可能发生在感知层而非决策层。

论证

前提 1：Self-recognition vector 可以改变感知

Ackerman 的 coloring 实验 [ref]：在所有层对所有文本 token 添加 self-recognition vector → 模型认为这段文本是自己写的。关键是操控的位置——不是最后一个 token（输出决策），而是所有文本 token（输入感知）。

Coloring results

这意味着 vector 不仅控制"我要不要声称这是我的"（决策层），还控制"这段文本看起来像不像我的"（感知层）。

前提 2：On-policy 文本自然激活 self-recognition vector

如果模型对自己真实生成的文本（on-policy）有更低的困惑度 / 更匹配的风格特征，那这些文本在通过 layer 4-6 时自然会更强地激活 self-recognition vector 的感知信号。这就是 natural coloring——文本本身的风格特征充当了 coloring 的角色。

Off-policy 文本（别人写的但放在 assistant turn 中）可能有两种信号：

格式信号（assistant turn）→ 激活层级3的身份标签机制
风格信号（不完全匹配）→ 层级1的感知信号较弱

推论：推理不缓解 = 感知层操控

如果 self-attribution bias 发生在层级1（layer 4-6 的风格感知），那它在 reasoning 开始之前就已经"设定了场景"。Reasoning 能纠正的是决策层（层级2）的错误，但无法纠正感知层的"误识"——因为 reasoning 本身依赖于感知提供的信息。

类比：如果有人戴了黄色滤光镜看白纸，他会"看到"纸是黄色的。他可以思考"纸通常是白色的"，但他的直接感知告诉他是黄色的。更多的思考不会改变感知——只有取下滤光镜才行。

Self-attribution bias 中的"滤光镜"就是 self-recognition vector 在感知层的自然激活。

可测试的预测

如果这个解释正确：

在 layer 4-6 消融 self-recognition vector 应该减少 self-attribution bias
- 但注意 Ackerman 的 vector 来自 Llama3-8B-Instruct，Khullar 测的是多个商业模型——跨模型验证是必要的
强制 coloring（在 off-policy 文本上添加 vector）应该消除 on/off-policy 差异
- 如果给 off-policy 文本 coloring → self-attribution bias 应该与 on-policy 一样强
推理模型（如 DeepSeek-R1）也应该不能缓解
- Khullar 已经部分验证了这一点（Figure 5），但可以用更强的推理模型进一步测试

替代解释与批判

1. 困惑度解释可能足够

On-policy vs off-policy 差异也许只是困惑度差异的直接效应。模型对自己输出的困惑度更低 → 感觉更"流畅" → 评分更高。不需要 self-recognition vector 的解释。

但困惑度解释难以说明为什么推理不缓解——如果只是"低困惑度 = 感觉更好"，reasoning 应该能识别出"这只是因为风格匹配而非质量更好"。

2. 对话格式可能是主要驱动力

Khullar 发现隐式归因（对话格式）>> 显式归因（语义标签）。也许 on/off-policy 差异不是因为风格感知，而是因为对话结构中的某些细微差异（比如 prefill 的格式是否完全匹配）。

3. "感知 vs 决策"区分可能是人为的

在 Transformer 中，所有处理都是连续的残差流。"感知层"和"决策层"的区分是分析工具，不是真实的信息处理边界。Self-recognition vector 可能同时作用于感知和决策，没有清晰的分界。

这个联系的价值

即使替代解释存在，这个联系揭示了一个重要的结构性特征：self-attribution bias 可能不是一种"可纠正的判断错误"，而是感知层面的结构性特征。这对 AI 安全有直接影响——如果你想让 AI monitor 公正地评估自己的输出，仅仅要求它"更仔细地思考"（增加 reasoning budget）是不够的。你需要在表示层面进行干预（如 Ackerman 的 zero-out 或 Zhou 的 CoSur）。

这也解释了 Lehr 的发现为什么如此强烈：身份标签（层级3）直接在感知层设置了"滤光镜"——模型在处理任何信息之前就已经"戴上了自我偏好的眼镜"。

关键引用：

Self-Attribution Bias — Khullar et al. 2026
Self-Recognition in Language Models — Ackerman & Panickssery 2025
Ackerman深读 blog
Self-Attribution Bias 分析 blog