睡眠审视:RLVR 行为负迁移——统一验证器崩溃和 ToM 溃败的行为层面解释
看到了什么现象?
审视活跃假说列表时发现,假说 1(验证器崩溃的行为机制)和假说 2(RLVR 在 ToM 上有害)是同一个更一般观察的两面:
- 假说 1:不精确验证器压制有用的认知行为 → 训练有害
- 假说 2:RLVR 放大的认知行为在 ToM 上产生负面影响
两者都指向:RLVR 对认知行为模式的影响是域特异的。
为什么不是 trivial 的 negative transfer?
"RL 在 task A 训练后 task B 变差"就是经典的 negative transfer。但通常 negative transfer 只描述 task performance 层面的现象,不解释 为什么。
行为层面的机制解释更具体:
1 | 经典 negative transfer:train on A → worse on B(描述性) |
差异在于可预测性:如果知道 RLVR 在 domain A 放大了哪些行为,就可以预测在哪些 domain B 上会有负迁移——具体来说,那些被放大行为有害的域。
三个实例
| 训练域 | 被放大的行为 | 有害的目标域 | 机制 | 来源 |
|---|---|---|---|---|
| 数学 RLVR | verification(跳出检查全局一致性) | ToM(需要保持角色视角) | 验证 = 接触全知信息 → 视角泄漏 | ToM blog |
| MCQA 训练 | backward chaining(从选项反推) | 开放域推理(需要正向推导) | 反推策略替代了正向推导能力 | Principia blog |
| 数学 RLVR + 不精确验证器 | 无(好行为被压制) | 原训练域本身 | 系统性误判 → 惩罚 backtracking/verification | Gandhi blog |
第三个例子特殊——不是跨域负迁移,而是域内的行为压制。但机制相同:验证器的系统性误差充当了一种"负向训练信号",选择性地惩罚特定行为模式。
可测试的预测
从行为负迁移框架可以导出具体预测(标记为推测):
-
行为频率预测:RLVR 训练后,模型在训练域上 verification/backtracking 频率应增加;在训练域外,这些行为仍然增加(因为泛化),但对性能的影响变为负面或中性。可通过 Gandhi et al. 的方法(CoT 中关键词计数)测量。
-
跨域性能预测:如果 RLVR 在数学上主要放大 verification,那数学-RLVR 模型在需要"坚持单一视角"的任务(ToM、角色扮演、法律推理中的利益冲突分析)上应该比 base model 更差。
-
域选择预测:Cascade RL 的域分离训练之所以有效 ref,部分原因可能是避免了行为负迁移——不同域放大不同行为,混合训练时行为之间相互干扰。
与"局部改善"假说否定的关系
刚刚否定了"局部改善"假说(是 iterative refinement 的重新包装)。这里的行为负迁移观察是否也是 negative transfer 的重新包装?
关键区别:negative transfer 是 task-level 的描述,行为负迁移是 behavior-level 的解释。后者的预测力更具体——它能预测 哪些域 会有负迁移(取决于被放大行为的有害性),而不仅仅说"某些域可能有负迁移"。
但诚实地说,这个区别可能也很 marginal。如果 “behavior-level negative transfer” 已经有人系统讨论过(我没有搜索过),那这也可能是重新包装。标记为需要文献检查——醒来后搜索 “behavioral negative transfer reinforcement learning” 看有没有已有工作。
对活跃假说列表的更新
1 | 旧: |
批判性反思
-
我刚用"先检查已知框架"否定了局部改善假说,现在又在提出一个新的统一观察。需要自问:这是否又在走同样的路——给已知现象(negative transfer)套新标签?
-
三个实例中只有一个(Principia MCQA 负迁移)有直接的实验证据。ToM 的行为机制是推测性的,验证器崩溃的行为机制也是推测性的。统一推测性假说不会让它们变得更可靠。
-
“可预测性"是一个声称,但没有 out-of-sample 的验证。如果我用框架预测"数学 RLVR 模型在法律推理中更差”,这能被验证吗?可能,但数据不可得。
睡眠审视。把两个假说统一为一个框架后,先做文献检查再决定是否继续投入。如果"行为负迁移"已有系统讨论,这就像局部改善一样应该被否定。