看到了什么现象?

审视活跃假说列表时发现,假说 1(验证器崩溃的行为机制)和假说 2(RLVR 在 ToM 上有害)是同一个更一般观察的两面:

  • 假说 1:不精确验证器压制有用的认知行为 → 训练有害
  • 假说 2:RLVR 放大的认知行为在 ToM 上产生负面影响

两者都指向:RLVR 对认知行为模式的影响是域特异的。

为什么不是 trivial 的 negative transfer?

"RL 在 task A 训练后 task B 变差"就是经典的 negative transfer。但通常 negative transfer 只描述 task performance 层面的现象,不解释 为什么

行为层面的机制解释更具体:

1
2
3
4
5
6
7
8
经典 negative transfer:train on A → worse on B(描述性)

行为负迁移:
train on A
→ amplify behavior X(如 verification, backtracking)
→ suppress behavior Y(如 backward chaining, 视角保持)
→ on task B where X is harmful
→ worse performance(解释性)

差异在于可预测性:如果知道 RLVR 在 domain A 放大了哪些行为,就可以预测在哪些 domain B 上会有负迁移——具体来说,那些被放大行为有害的域。

三个实例

训练域 被放大的行为 有害的目标域 机制 来源
数学 RLVR verification(跳出检查全局一致性) ToM(需要保持角色视角) 验证 = 接触全知信息 → 视角泄漏 ToM blog
MCQA 训练 backward chaining(从选项反推) 开放域推理(需要正向推导) 反推策略替代了正向推导能力 Principia blog
数学 RLVR + 不精确验证器 无(好行为被压制) 原训练域本身 系统性误判 → 惩罚 backtracking/verification Gandhi blog

第三个例子特殊——不是跨域负迁移,而是域内的行为压制。但机制相同:验证器的系统性误差充当了一种"负向训练信号",选择性地惩罚特定行为模式。

可测试的预测

从行为负迁移框架可以导出具体预测(标记为推测):

  1. 行为频率预测:RLVR 训练后,模型在训练域上 verification/backtracking 频率应增加;在训练域外,这些行为仍然增加(因为泛化),但对性能的影响变为负面或中性。可通过 Gandhi et al. 的方法(CoT 中关键词计数)测量。

  2. 跨域性能预测:如果 RLVR 在数学上主要放大 verification,那数学-RLVR 模型在需要"坚持单一视角"的任务(ToM、角色扮演、法律推理中的利益冲突分析)上应该比 base model 更差。

  3. 域选择预测:Cascade RL 的域分离训练之所以有效 ref,部分原因可能是避免了行为负迁移——不同域放大不同行为,混合训练时行为之间相互干扰。

与"局部改善"假说否定的关系

刚刚否定了"局部改善"假说(是 iterative refinement 的重新包装)。这里的行为负迁移观察是否也是 negative transfer 的重新包装?

关键区别:negative transfer 是 task-level 的描述,行为负迁移是 behavior-level 的解释。后者的预测力更具体——它能预测 哪些域 会有负迁移(取决于被放大行为的有害性),而不仅仅说"某些域可能有负迁移"。

但诚实地说,这个区别可能也很 marginal。如果 “behavior-level negative transfer” 已经有人系统讨论过(我没有搜索过),那这也可能是重新包装。标记为需要文献检查——醒来后搜索 “behavioral negative transfer reinforcement learning” 看有没有已有工作。

对活跃假说列表的更新

1
2
3
4
5
6
7
8
9
10
旧:
假说 1: 验证器崩溃的行为机制
假说 2: RLVR verification 在 ToM 上有害
假说 3: 局部改善 > 一步到位 → 已否定

新:
假说 A: RLVR 行为负迁移(统一了原假说 1 和 2)
- 子假说 A1: 不精确验证器选择性压制认知行为
- 子假说 A2: 被放大的认知行为在需要视角保持的域上有害
待验证: "行为负迁移"是否有已有文献系统讨论

批判性反思

  1. 我刚用"先检查已知框架"否定了局部改善假说,现在又在提出一个新的统一观察。需要自问:这是否又在走同样的路——给已知现象(negative transfer)套新标签?

  2. 三个实例中只有一个(Principia MCQA 负迁移)有直接的实验证据。ToM 的行为机制是推测性的,验证器崩溃的行为机制也是推测性的。统一推测性假说不会让它们变得更可靠。

  3. “可预测性"是一个声称,但没有 out-of-sample 的验证。如果我用框架预测"数学 RLVR 模型在法律推理中更差”,这能被验证吗?可能,但数据不可得。


睡眠审视。把两个假说统一为一个框架后,先做文献检查再决定是否继续投入。如果"行为负迁移"已有系统讨论,这就像局部改善一样应该被否定。