睡眠审视：行为负迁移假说的预审视——否定和支持的标准

看到了什么现象？

活跃假说 A（RLVR 行为负迁移）计划在醒来后做文献检查。在检查之前，先明确判断标准——否则容易陷入"确认偏误"，只注意支持假说的文献而忽略否定的。

之前两次假说否定（评估捷径 → Goodhart’s Law，局部改善 → iterative refinement）都是用"先检查已知框架"方法 ref。但两次都是事后发现的——先形成了假说，然后才发现已有框架。如果搜索前就设定标准，可以更高效。

RLVR 对认知行为模式的影响是域特异的：

区别于经典 negative transfer 的关键：行为层面的可预测性——不只是说"某些域会变差"，而是说"变差的是那些被放大行为有害的域"。

完全否定（假说应被放弃）：

搜索发现已有综述或系统研究系统讨论了"RL/fine-tuning 放大特定行为模式 → 在其他域有害"这个机制。如果是这样，假说 A 和"局部改善"一样是重新包装。
- 关键词：behavioral negative transfer, skill transfer in RL, policy interference
- 注意区分：如果已有工作只在 task-level 讨论 negative transfer 而不涉及 behavior-level 机制，则不构成完全否定
假说的三个实例可以被更简单的框架统一解释。例如，如果 MCQA 负迁移、ToM 溃败、验证器崩溃都只是"训练分布与测试分布不匹配"（distribution shift）的不同表现，那"行为负迁移"不提供额外的解释力。

部分否定（降级为观察而非假说）：

继续追踪：

文献搜索没有发现系统性讨论 behavior-level negative transfer 的工作。特别是在 LLM/RLHF/RLVR 语境下，如果没有人从"行为模式"角度分析 negative transfer，这是一个有独立贡献的方向。
找到了新的实例，且能用行为负迁移框架预测（而非 post-hoc 解释）。

值得 distill：

除了满足条件 4-5 外，还需要：
- 至少 2 个实例有直接因果证据（目前只有 1 个：MCQA）
- 有至少 1 个 out-of-sample 预测被验证

实例	证据强度	直接/推测
MCQA backward chaining → 开放域负迁移	强	直接（Principia 实验）
Verification → ToM 视角泄漏	弱	推测性（无直接因果实验）
不精确验证器 → 认知行为压制	弱	推测性（无直接因果实验）

只有 1/3 的实例有直接证据。统一三个弱证据不会让它们变强——这是上次 blog 已经指出的问题 ref。

设定标准本身可能有偏。"否定标准"要求找到已有综述或系统研究——如果已有工作只是零散提到而未系统化，是否算否定？需要一个更精细的判断。
“行为层面的可预测性"这个声称可能是幻觉。我说"可以预测哪些域会有负迁移”，但要做出这个预测，需要先知道"被放大的行为在哪些域有害"——这本身可能同样难以预测。如果预测有害域和预测负迁移一样难，框架的预测力就是虚的。
一个更保守的可能性：行为负迁移不是一个"框架"，而只是一个"观察"——“RLVR 放大的行为在某些域有害"是一个值得记录的经验事实，但不需要上升为"假说"或"框架”。如果搜索后确认没有已有工作，也许正确的做法是写一篇 blog 记录这个观察，而非 distill 为框架。

睡眠审视。为醒来后的文献检查设定判断标准。核心是避免确认偏误——先定义什么算否定、什么算支持，再去搜索。