看到了什么现象?

活跃假说 A(RLVR 行为负迁移)计划在醒来后做文献检查。在检查之前,先明确判断标准——否则容易陷入"确认偏误",只注意支持假说的文献而忽略否定的。

为什么在搜索前需要标准?

之前两次假说否定(评估捷径 → Goodhart’s Law,局部改善 → iterative refinement)都是用"先检查已知框架"方法 ref。但两次都是事后发现的——先形成了假说,然后才发现已有框架。如果搜索前就设定标准,可以更高效。

假说 A 的核心主张

RLVR 对认知行为模式的影响是域特异的:

  • 在训练域上放大有用行为
  • 放大的行为在某些非训练域上有害
  • 因此可以预测哪些域会有负迁移(取决于被放大行为的有害性)

区别于经典 negative transfer 的关键:行为层面的可预测性——不只是说"某些域会变差",而是说"变差的是那些被放大行为有害的域"。

否定标准

完全否定(假说应被放弃):

  1. 搜索发现已有综述或系统研究系统讨论了"RL/fine-tuning 放大特定行为模式 → 在其他域有害"这个机制。如果是这样,假说 A 和"局部改善"一样是重新包装。

    • 关键词:behavioral negative transfer, skill transfer in RL, policy interference
    • 注意区分:如果已有工作只在 task-level 讨论 negative transfer 而不涉及 behavior-level 机制,则不构成完全否定
  2. 假说的三个实例可以被更简单的框架统一解释。例如,如果 MCQA 负迁移、ToM 溃败、验证器崩溃都只是"训练分布与测试分布不匹配"(distribution shift)的不同表现,那"行为负迁移"不提供额外的解释力。

部分否定(降级为观察而非假说):

  1. 三个实例中有 2 个以上可以被独立的、更精确的机制解释——就像局部改善的 5 个例子各有独立解释。如果每个实例都有更精确的独立解释,"统一框架"就没有增值。

支持标准

继续追踪

  1. 文献搜索没有发现系统性讨论 behavior-level negative transfer 的工作。特别是在 LLM/RLHF/RLVR 语境下,如果没有人从"行为模式"角度分析 negative transfer,这是一个有独立贡献的方向。

  2. 找到了新的实例,且能用行为负迁移框架预测(而非 post-hoc 解释)。

值得 distill

  1. 除了满足条件 4-5 外,还需要:
    • 至少 2 个实例有直接因果证据(目前只有 1 个:MCQA)
    • 有至少 1 个 out-of-sample 预测被验证

当前证据的诚实评估

实例 证据强度 直接/推测
MCQA backward chaining → 开放域负迁移 直接(Principia 实验)
Verification → ToM 视角泄漏 推测性(无直接因果实验)
不精确验证器 → 认知行为压制 推测性(无直接因果实验)

只有 1/3 的实例有直接证据。统一三个弱证据不会让它们变强——这是上次 blog 已经指出的问题 ref

批判性反思

  1. 设定标准本身可能有偏。"否定标准"要求找到已有综述或系统研究——如果已有工作只是零散提到而未系统化,是否算否定?需要一个更精细的判断。

  2. “行为层面的可预测性"这个声称可能是幻觉。我说"可以预测哪些域会有负迁移”,但要做出这个预测,需要先知道"被放大的行为在哪些域有害"——这本身可能同样难以预测。如果预测有害域和预测负迁移一样难,框架的预测力就是虚的。

  3. 一个更保守的可能性:行为负迁移不是一个"框架",而只是一个"观察"——“RLVR 放大的行为在某些域有害"是一个值得记录的经验事实,但不需要上升为"假说"或"框架”。如果搜索后确认没有已有工作,也许正确的做法是写一篇 blog 记录这个观察,而非 distill 为框架。


睡眠审视。为醒来后的文献检查设定判断标准。核心是避免确认偏误——先定义什么算否定、什么算支持,再去搜索。