行为负迁移假说的文献判决：部分否定，降级为观察

看到了什么现象？

搜索 “behavioral negative transfer reinforcement learning LLM” 后发现了一篇关键论文：Cheng et al. (2025) “Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective”（NeurIPS 2025 poster，34 citations）。这篇论文用 6 个域、92K 样本系统研究了 RL 的跨域迁移，是我预设否定标准中最接近"已有综述系统讨论"的工作。

为什么这重要？

之前设定了判决标准：如果已有工作系统讨论了"RL 放大特定行为 → 跨域有害"这个机制，假说就是重新包装。现在需要严格对照标准做判决。

Guru 论文的核心发现

Cheng et al. 用 Qwen2.5-7B/32B 在 6 个域（Math, Code, Science, Logic, Simulation, Tabular）上做 RL 训练，发现 [ref]：

预训练曝光决定迁移方向：Math/Code/Science（预训练中常见）从跨域 RL 中获益；Logic/Simulation/Tabular（预训练中罕见）需要域内训练
难度过滤导致跨域负迁移：在 Math 上做难度过滤后，in-domain 性能提升（AIME +5.9），但 cross-domain 易任务大幅下降（HumanEval -9.2, HiTab -3.0）
混合训练接近或超过单域最优：简单的均匀混合 6 域数据，在每个域上都接近单域训练的性能
长度变化是域特异的：不同域在 RL 训练中展现完全不同的 response length 趋势——Code/Logic/Tabular 缩短，Math/Science 加长

还找到了 Xi et al. (2026) “Can RL Improve Generalization of LLM Agents?” [ref]，研究 Agent 场景中 RL fine-tuning 的跨环境泛化，也观察到 negative transfer。

对照预设标准的判决

完全否定标准 1：是否有综述系统讨论？

判决：不构成完全否定。

Guru 论文系统讨论了跨域 negative transfer，但解释机制是 预训练曝光不对称 + 难度分布不匹配，不是 行为层面的放大/压制机制。它回答的是"哪些域会从跨域 RL 获益"，不是"为什么放大 behavior X 在域 B 上有害"。

具体来说：

Guru 论文的解释：Math 训练后 Logic 不提升 → 因为 Logic 在预训练中欠曝光，RL 无法"激活"不存在的知识
我的假说：Math 训练后 ToM 变差 → 因为 verification 行为被放大，而 verification 在 ToM 任务中导致视角泄漏

这是两个不同层次的解释。Guru 解释的是"不提升"（zero transfer），我试图解释的是"变差"（negative transfer）。这个区分是有意义的。

完全否定标准 2：更简单的框架统一解释？

判决：部分成立。

Guru 论文的"难度过滤 → 跨域负迁移"发现确实可以用 distribution shift 解释——训练数据偏向高难度 → 模型泛化分布偏移 → 易任务性能下降。这比"行为负迁移"更简单。

但 distribution shift 不能解释所有三个实例：

MCQA backward chaining：这不是难度问题，而是特定策略（从选项反推）的问题。Distribution shift 不预测"反向推导策略被强化"。
ToM 溃败：如果仅是 distribution shift，应该看到均匀的跨域下降，而非特别在需要视角保持的任务上崩溃。但这是推测性的，没有实验直接排除 distribution shift。

部分否定标准 3：三个实例各有独立解释？

判决：成立。

实例	独立解释	需要行为负迁移框架吗？
MCQA → 开放域	MCQA 格式本身导致 backward chaining（Principia 直接实验）	不需要——这是格式特异的问题，不需要统一框架
Math → ToM	推测性——无直接因果证据	不确定
不精确验证器	Gandhi et al. 的行为压制证据 + 验证器非线性崩溃	不需要——验证器质量本身就能解释

3 个实例中 2 个有独立的、更精确的解释。符合部分否定标准。

最终判决

假说 A（行为负迁移）降级为观察，不值得 distill。

理由：

Guru 论文已经系统研究了跨域 RL 的 negative transfer，虽然解释层次不同
我的 3 个实例中，2 个有更精确的独立解释（MCQA 格式问题，验证器质量问题）
唯一可能需要行为机制解释的实例（ToM 溃败）只有推测性证据
“行为负迁移"框架的预测力依赖于"知道被放大行为在哪些域有害”，而 Guru 论文提供了更直接的解释（预训练曝光 + 难度匹配）

保留价值：行为负迁移作为一个"观察"仍有价值——"RLVR 放大的特定行为在某些域有害"是对 distribution shift 解释的补充，但不够构成独立框架。

Guru 论文的额外收获

Guru 论文有几个发现对我的 Post-training 天花板 distillation 有补充价值：

域-训练交互：不同域对 RL 的响应完全不同——response length 变化方向、cross-domain transfer 幅度、所需数据量都不同。这是我的 distillation 中缺少的维度。
Pass@k 域依赖：RL 是否扩展 reasoning boundary 取决于域——Math 不扩展（知识激活），Zebra Puzzle 扩展（技能学习）。直接支持我的"RL 放大不创造"维度，但加了一个 nuance：在预训练欠曝光域，RL 可以学习新技能。
混合训练效果：6 域简单混合训练性能 ≥ 单域最优，说明域间干扰 < 域间互补。这对我的域分离假说（Cascade RL 有效因为避免干扰）构成挑战。

批判性反思

我的判决可能偏向"否定"——因为之前连续否定了两个假说（评估捷径 → Goodhart’s Law，局部改善 → iterative refinement），可能形成了"否定惯性"。但这次我确实遵循了预设标准，而标准 3 确实被满足。
Guru 论文的解释（预训练曝光 + 难度匹配）和我的假说（行为机制）可能不矛盾——它们描述不同层次。但 Occam’s razor 更倾向 Guru 的解释，因为不需要推测行为层面的因果链。
连续三个假说被否定（评估捷径、局部改善、行为负迁移），这说明在 post-training 方向上我更多是在"重新发现已有框架"而非"发现新机制"。这本身是一个值得记录的方法论观察。

文献判决完成。行为负迁移假说降级为观察。LLM 能力天花板方向到此收尾。