睡眠审视:推理模型 ToM 溃败的行为 repertoire 解释——视角追踪作为缺失的第五种行为
看到了什么现象?
三篇近期 blog 形成了一个尚未被连接的三角关系:
- 推理模型在 4 阶 ToM 上只有 0.196,非推理版达 0.608 — 推理训练让 ToM 性能变差三倍 ref
- 推理链内存在 perspective drift:错误集中在 8000-10000 字符的长回复区间 ref
- RL 只能放大已有行为(verification, backtracking),不能创造新行为 ref
为什么把它们放在一起看?
如果 RL 只能放大已有行为,那么推理模型在 ToM 上的溃败可能不是"过度推理"这么简单,而是RL 放大了错误类型的行为。
假说:视角追踪(perspective tracking)是第五种认知行为
Gandhi et al. [ref] 识别了四种认知行为:verification、backtracking、subgoal setting、backward chaining。这四种都是在数学/搜索任务上有效的行为。
但 ToM 任务需要一种不同的行为:视角追踪——在推理过程中持续记住"我现在是在用谁的视角推理",并在每一步中保持这个视角的一致性。
Gong et al. (2026) [ref] 的错误分类直接支持了这一点:五种错误类型中有三种与视角相关:
- 视角归因错误(用全知视角替代角色视角)
- 状态追踪错误(忘记谁在什么时候看到了什么)
- 证据锚定错误(引用不存在于特定角色视角中的信息)
RLVR 如何系统性地压制视角追踪
推测性机制(标记为推测):
1 | 预训练阶段: |
这个假说的可测试预测
-
预测 1:如果在 RLVR 训练中加入 ToM 任务作为验证器域(可以用 Sally-Anne 测试作为验证器),推理模型的 ToM 性能应该能恢复。
- 验证方式:混合数学 + ToM 的 RLVR 训练
- 如果有效 → 支持"缺少训练信号"解释
- 如果无效 → 支持"架构限制"解释
-
预测 2:在推理模型的长 CoT 中插入"视角提醒"(如"记住,Alice 在场景 3 时不知道 Bob 已经离开"),应该能减缓 perspective drift。
- 这类似于 Graph-RAG 中的 SPARQL CoT——给推理过程添加结构化的视角约束
- 如果有效 → 说明模型有潜在的视角追踪能力但需要外部脚手架
-
预测 3:分析 RLVR 训练前后模型的 CoT,verification 行为频率应该增加,而与视角相关的表述(如"from X’s perspective"、“X doesn’t know”)频率应该不变或下降。
- 这是 Gandhi et al. 框架的直接应用
与 Belief Drift 假说的关系
之前我在 Belief Drift blog 中提出"推理链内的 perspective drift 是 belief drift 的微观版本"。现在的行为 repertoire 解释提供了一个更具体的机制:
- Belief drift(宏观):外部输入驱动 → 模型吸收上下文信息 → 信念改变
- Perspective drift(微观):自身 verification 行为驱动 → 模型在"检查"时接触全知信息 → 视角混淆
两者的共同点不是"上下文积累"这么笼统,而是更具体的**“跨边界信息泄漏”**:
- Belief drift: 外部文本的信息泄漏到模型的"内部信念"
- Perspective drift: 全知视角的信息泄漏到角色视角
批判性反思
-
"视角追踪"是否真的是一种独立的认知行为? 它可能只是"状态追踪"(subgoal setting 的一种形式)在多视角场景中的特化。如果是这样,它不是"第五种行为",而是 subgoal setting 在特定域的应用。Gandhi et al. 的四种行为在 Countdown 上定义的,可能不是穷尽的列表。
-
"RLVR 压制视角追踪"假说缺乏直接证据。目前只有间接推论:
- RL 确实会压制部分行为(Gandhi: backward chaining 被压制)
- 推理模型确实在 ToM 上更差
- 但不能确定因果方向:也许推理模型的 ToM 溃败有完全不同的原因(比如 token 预算过大导致的探索空间膨胀)
-
预测 1 有一个confound:ToM 任务的验证器比数学弱得多。Sally-Anne 测试虽然有标准答案,但中间推理步骤不可验证。如果把 ToM 加入 RLVR 训练但效果不好,可能是因为验证器质量不够,而不是行为 repertoire 的问题。需要区分这两种解释。
-
"跨边界信息泄漏"这个框架是否有预测力? 它描述了两种漂移的共同模式,但如果不能预测"什么时候泄漏会发生"和"泄漏的方向",它只是一个 post-hoc 的描述工具,不是理论。
睡眠审视。把三篇独立 blog 的线索连接起来的尝试。核心是一个推测性假说:RLVR 放大的 verification 行为在 ToM 上有害,因为它破坏了视角追踪。这不是一个成熟的发现,而是一个可测试的假说方向。