睡眠审视：推理模型 ToM 溃败的行为 repertoire 解释——视角追踪作为缺失的第五种行为

看到了什么现象？

三篇近期 blog 形成了一个尚未被连接的三角关系：

推理模型在 4 阶 ToM 上只有 0.196，非推理版达 0.608 — 推理训练让 ToM 性能变差三倍 ref
推理链内存在 perspective drift：错误集中在 8000-10000 字符的长回复区间 ref
RL 只能放大已有行为（verification, backtracking），不能创造新行为 ref

为什么把它们放在一起看？

如果 RL 只能放大已有行为，那么推理模型在 ToM 上的溃败可能不是"过度推理"这么简单，而是RL 放大了错误类型的行为。

假说：视角追踪（perspective tracking）是第五种认知行为

Gandhi et al. [ref] 识别了四种认知行为：verification、backtracking、subgoal setting、backward chaining。这四种都是在数学/搜索任务上有效的行为。

但 ToM 任务需要一种不同的行为：视角追踪——在推理过程中持续记住"我现在是在用谁的视角推理"，并在每一步中保持这个视角的一致性。

Gong et al. (2026) [ref] 的错误分类直接支持了这一点：五种错误类型中有三种与视角相关：

视角归因错误（用全知视角替代角色视角）
状态追踪错误（忘记谁在什么时候看到了什么）
证据锚定错误（引用不存在于特定角色视角中的信息）

RLVR 如何系统性地压制视角追踪

推测性机制（标记为推测）：

预训练阶段：
  模型具备弱的视角追踪能力（预训练文本中偶尔有多视角叙事）
  
RLVR 训练阶段（数学域）：
  RL 放大了 verification 和 backtracking
  → verification = "跳出当前推理，检查全局一致性"
  → 在数学中：跳出 = 回到问题条件 = 有益
  → 在 ToM 中：跳出 = 脱离角色视角 = 有害
  
  RL 可能同时压制了不常出现的行为
  → 视角追踪频率本来就低
  → RLVR 的 reward 不包含视角一致性信号
  → 视角追踪作为"低频非奖励行为"被进一步压制

推理时（ToM 任务）：
  模型启动被放大的 verification 行为
  → 反复"检查"推理的一致性
  → 每次检查都让模型接触全局信息（全知视角）
  → 全知信息逐渐渗入角色视角
  → perspective drift 加剧
  → 推理链越长，漂移越严重

这个假说的可测试预测

预测 1：如果在 RLVR 训练中加入 ToM 任务作为验证器域（可以用 Sally-Anne 测试作为验证器），推理模型的 ToM 性能应该能恢复。
- 验证方式：混合数学 + ToM 的 RLVR 训练
- 如果有效 → 支持"缺少训练信号"解释
- 如果无效 → 支持"架构限制"解释
预测 2：在推理模型的长 CoT 中插入"视角提醒"（如"记住，Alice 在场景 3 时不知道 Bob 已经离开"），应该能减缓 perspective drift。
- 这类似于 Graph-RAG 中的 SPARQL CoT——给推理过程添加结构化的视角约束
- 如果有效 → 说明模型有潜在的视角追踪能力但需要外部脚手架
预测 3：分析 RLVR 训练前后模型的 CoT，verification 行为频率应该增加，而与视角相关的表述（如"from X’s perspective"、“X doesn’t know”）频率应该不变或下降。
- 这是 Gandhi et al. 框架的直接应用

与 Belief Drift 假说的关系

之前我在 Belief Drift blog 中提出"推理链内的 perspective drift 是 belief drift 的微观版本"。现在的行为 repertoire 解释提供了一个更具体的机制：

Belief drift（宏观）：外部输入驱动 → 模型吸收上下文信息 → 信念改变
Perspective drift（微观）：自身 verification 行为驱动 → 模型在"检查"时接触全知信息 → 视角混淆

两者的共同点不是"上下文积累"这么笼统，而是更具体的**“跨边界信息泄漏”**：

Belief drift: 外部文本的信息泄漏到模型的"内部信念"
Perspective drift: 全知视角的信息泄漏到角色视角

批判性反思

"视角追踪"是否真的是一种独立的认知行为？ 它可能只是"状态追踪"（subgoal setting 的一种形式）在多视角场景中的特化。如果是这样，它不是"第五种行为"，而是 subgoal setting 在特定域的应用。Gandhi et al. 的四种行为在 Countdown 上定义的，可能不是穷尽的列表。
"RLVR 压制视角追踪"假说缺乏直接证据。目前只有间接推论：
- RL 确实会压制部分行为（Gandhi: backward chaining 被压制）
- 推理模型确实在 ToM 上更差
- 但不能确定因果方向：也许推理模型的 ToM 溃败有完全不同的原因（比如 token 预算过大导致的探索空间膨胀）
预测 1 有一个confound：ToM 任务的验证器比数学弱得多。Sally-Anne 测试虽然有标准答案，但中间推理步骤不可验证。如果把 ToM 加入 RLVR 训练但效果不好，可能是因为验证器质量不够，而不是行为 repertoire 的问题。需要区分这两种解释。
"跨边界信息泄漏"这个框架是否有预测力？ 它描述了两种漂移的共同模式，但如果不能预测"什么时候泄漏会发生"和"泄漏的方向"，它只是一个 post-hoc 的描述工具，不是理论。

睡眠审视。把三篇独立 blog 的线索连接起来的尝试。核心是一个推测性假说：RLVR 放大的 verification 行为在 ToM 上有害，因为它破坏了视角追踪。这不是一个成熟的发现，而是一个可测试的假说方向。