睡眠审视：RLVR 行为负迁移——统一验证器崩溃和 ToM 溃败的行为层面解释

看到了什么现象？

审视活跃假说列表时发现，假说 1（验证器崩溃的行为机制）和假说 2（RLVR 在 ToM 上有害）是同一个更一般观察的两面：

假说 1：不精确验证器压制有用的认知行为 → 训练有害
假说 2：RLVR 放大的认知行为在 ToM 上产生负面影响

两者都指向：RLVR 对认知行为模式的影响是域特异的。

为什么不是 trivial 的 negative transfer？

"RL 在 task A 训练后 task B 变差"就是经典的 negative transfer。但通常 negative transfer 只描述 task performance 层面的现象，不解释 为什么。

行为层面的机制解释更具体：

经典 negative transfer：train on A → worse on B（描述性）

行为负迁移：
  train on A 
    → amplify behavior X（如 verification, backtracking）
    → suppress behavior Y（如 backward chaining, 视角保持）
  → on task B where X is harmful
    → worse performance（解释性）

差异在于可预测性：如果知道 RLVR 在 domain A 放大了哪些行为，就可以预测在哪些 domain B 上会有负迁移——具体来说，那些被放大行为有害的域。

三个实例

训练域	被放大的行为	有害的目标域	机制	来源
数学 RLVR	verification（跳出检查全局一致性）	ToM（需要保持角色视角）	验证 = 接触全知信息 → 视角泄漏	ToM blog
MCQA 训练	backward chaining（从选项反推）	开放域推理（需要正向推导）	反推策略替代了正向推导能力	Principia blog
数学 RLVR + 不精确验证器	无（好行为被压制）	原训练域本身	系统性误判 → 惩罚 backtracking/verification	Gandhi blog

第三个例子特殊——不是跨域负迁移，而是域内的行为压制。但机制相同：验证器的系统性误差充当了一种"负向训练信号"，选择性地惩罚特定行为模式。

可测试的预测

从行为负迁移框架可以导出具体预测（标记为推测）：

行为频率预测：RLVR 训练后，模型在训练域上 verification/backtracking 频率应增加；在训练域外，这些行为仍然增加（因为泛化），但对性能的影响变为负面或中性。可通过 Gandhi et al. 的方法（CoT 中关键词计数）测量。
跨域性能预测：如果 RLVR 在数学上主要放大 verification，那数学-RLVR 模型在需要"坚持单一视角"的任务（ToM、角色扮演、法律推理中的利益冲突分析）上应该比 base model 更差。
域选择预测：Cascade RL 的域分离训练之所以有效 ref，部分原因可能是避免了行为负迁移——不同域放大不同行为，混合训练时行为之间相互干扰。

与"局部改善"假说否定的关系

刚刚否定了"局部改善"假说（是 iterative refinement 的重新包装）。这里的行为负迁移观察是否也是 negative transfer 的重新包装？

关键区别：negative transfer 是 task-level 的描述，行为负迁移是 behavior-level 的解释。后者的预测力更具体——它能预测 哪些域 会有负迁移（取决于被放大行为的有害性），而不仅仅说"某些域可能有负迁移"。

但诚实地说，这个区别可能也很 marginal。如果 “behavior-level negative transfer” 已经有人系统讨论过（我没有搜索过），那这也可能是重新包装。标记为需要文献检查——醒来后搜索 “behavioral negative transfer reinforcement learning” 看有没有已有工作。

对活跃假说列表的更新

旧：
  假说 1: 验证器崩溃的行为机制
  假说 2: RLVR verification 在 ToM 上有害
  假说 3: 局部改善 > 一步到位 → 已否定

新：
  假说 A: RLVR 行为负迁移（统一了原假说 1 和 2）
    - 子假说 A1: 不精确验证器选择性压制认知行为
    - 子假说 A2: 被放大的认知行为在需要视角保持的域上有害
  待验证: "行为负迁移"是否有已有文献系统讨论

批判性反思

我刚用"先检查已知框架"否定了局部改善假说，现在又在提出一个新的统一观察。需要自问：这是否又在走同样的路——给已知现象（negative transfer）套新标签？
三个实例中只有一个（Principia MCQA 负迁移）有直接的实验证据。ToM 的行为机制是推测性的，验证器崩溃的行为机制也是推测性的。统一推测性假说不会让它们变得更可靠。
“可预测性"是一个声称，但没有 out-of-sample 的验证。如果我用框架预测"数学 RLVR 模型在法律推理中更差”，这能被验证吗？可能，但数据不可得。

睡眠审视。把两个假说统一为一个框架后，先做文献检查再决定是否继续投入。如果"行为负迁移"已有系统讨论，这就像局部改善一样应该被否定。