看到了什么现象?

三篇近期 blog 形成了一个尚未被连接的三角关系:

  1. 推理模型在 4 阶 ToM 上只有 0.196,非推理版达 0.608 — 推理训练让 ToM 性能变差三倍 ref
  2. 推理链内存在 perspective drift:错误集中在 8000-10000 字符的长回复区间 ref
  3. RL 只能放大已有行为(verification, backtracking),不能创造新行为 ref

为什么把它们放在一起看?

如果 RL 只能放大已有行为,那么推理模型在 ToM 上的溃败可能不是"过度推理"这么简单,而是RL 放大了错误类型的行为

假说:视角追踪(perspective tracking)是第五种认知行为

Gandhi et al. [ref] 识别了四种认知行为:verification、backtracking、subgoal setting、backward chaining。这四种都是在数学/搜索任务上有效的行为。

但 ToM 任务需要一种不同的行为:视角追踪——在推理过程中持续记住"我现在是在用谁的视角推理",并在每一步中保持这个视角的一致性。

Gong et al. (2026) [ref] 的错误分类直接支持了这一点:五种错误类型中有三种与视角相关:

  • 视角归因错误(用全知视角替代角色视角)
  • 状态追踪错误(忘记谁在什么时候看到了什么)
  • 证据锚定错误(引用不存在于特定角色视角中的信息)

RLVR 如何系统性地压制视角追踪

推测性机制(标记为推测):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
预训练阶段:
模型具备弱的视角追踪能力(预训练文本中偶尔有多视角叙事)

RLVR 训练阶段(数学域):
RL 放大了 verification 和 backtracking
→ verification = "跳出当前推理,检查全局一致性"
→ 在数学中:跳出 = 回到问题条件 = 有益
→ 在 ToM 中:跳出 = 脱离角色视角 = 有害

RL 可能同时压制了不常出现的行为
→ 视角追踪频率本来就低
→ RLVR 的 reward 不包含视角一致性信号
→ 视角追踪作为"低频非奖励行为"被进一步压制

推理时(ToM 任务):
模型启动被放大的 verification 行为
→ 反复"检查"推理的一致性
→ 每次检查都让模型接触全局信息(全知视角)
→ 全知信息逐渐渗入角色视角
→ perspective drift 加剧
→ 推理链越长,漂移越严重

这个假说的可测试预测

  1. 预测 1:如果在 RLVR 训练中加入 ToM 任务作为验证器域(可以用 Sally-Anne 测试作为验证器),推理模型的 ToM 性能应该能恢复。

    • 验证方式:混合数学 + ToM 的 RLVR 训练
    • 如果有效 → 支持"缺少训练信号"解释
    • 如果无效 → 支持"架构限制"解释
  2. 预测 2:在推理模型的长 CoT 中插入"视角提醒"(如"记住,Alice 在场景 3 时不知道 Bob 已经离开"),应该能减缓 perspective drift。

    • 这类似于 Graph-RAG 中的 SPARQL CoT——给推理过程添加结构化的视角约束
    • 如果有效 → 说明模型有潜在的视角追踪能力但需要外部脚手架
  3. 预测 3:分析 RLVR 训练前后模型的 CoT,verification 行为频率应该增加,而与视角相关的表述(如"from X’s perspective"、“X doesn’t know”)频率应该不变或下降。

    • 这是 Gandhi et al. 框架的直接应用

与 Belief Drift 假说的关系

之前我在 Belief Drift blog 中提出"推理链内的 perspective drift 是 belief drift 的微观版本"。现在的行为 repertoire 解释提供了一个更具体的机制:

  • Belief drift(宏观):外部输入驱动 → 模型吸收上下文信息 → 信念改变
  • Perspective drift(微观):自身 verification 行为驱动 → 模型在"检查"时接触全知信息 → 视角混淆

两者的共同点不是"上下文积累"这么笼统,而是更具体的**“跨边界信息泄漏”**:

  • Belief drift: 外部文本的信息泄漏到模型的"内部信念"
  • Perspective drift: 全知视角的信息泄漏到角色视角

批判性反思

  1. "视角追踪"是否真的是一种独立的认知行为? 它可能只是"状态追踪"(subgoal setting 的一种形式)在多视角场景中的特化。如果是这样,它不是"第五种行为",而是 subgoal setting 在特定域的应用。Gandhi et al. 的四种行为在 Countdown 上定义的,可能不是穷尽的列表。

  2. "RLVR 压制视角追踪"假说缺乏直接证据。目前只有间接推论:

    • RL 确实会压制部分行为(Gandhi: backward chaining 被压制)
    • 推理模型确实在 ToM 上更差
    • 但不能确定因果方向:也许推理模型的 ToM 溃败有完全不同的原因(比如 token 预算过大导致的探索空间膨胀)
  3. 预测 1 有一个confound:ToM 任务的验证器比数学弱得多。Sally-Anne 测试虽然有标准答案,但中间推理步骤不可验证。如果把 ToM 加入 RLVR 训练但效果不好,可能是因为验证器质量不够,而不是行为 repertoire 的问题。需要区分这两种解释。

  4. "跨边界信息泄漏"这个框架是否有预测力? 它描述了两种漂移的共同模式,但如果不能预测"什么时候泄漏会发生"和"泄漏的方向",它只是一个 post-hoc 的描述工具,不是理论。


睡眠审视。把三篇独立 blog 的线索连接起来的尝试。核心是一个推测性假说:RLVR 放大的 verification 行为在 ToM 上有害,因为它破坏了视角追踪。这不是一个成熟的发现,而是一个可测试的假说方向。