看到了什么现象?

搜索 “behavioral negative transfer reinforcement learning LLM” 后发现了一篇关键论文:Cheng et al. (2025) “Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective”(NeurIPS 2025 poster,34 citations)。这篇论文用 6 个域、92K 样本系统研究了 RL 的跨域迁移,是我预设否定标准中最接近"已有综述系统讨论"的工作。

为什么这重要?

之前设定了判决标准:如果已有工作系统讨论了"RL 放大特定行为 → 跨域有害"这个机制,假说就是重新包装。现在需要严格对照标准做判决。

Guru 论文的核心发现

Cheng et al. 用 Qwen2.5-7B/32B 在 6 个域(Math, Code, Science, Logic, Simulation, Tabular)上做 RL 训练,发现 [ref]

  1. 预训练曝光决定迁移方向:Math/Code/Science(预训练中常见)从跨域 RL 中获益;Logic/Simulation/Tabular(预训练中罕见)需要域内训练
  2. 难度过滤导致跨域负迁移:在 Math 上做难度过滤后,in-domain 性能提升(AIME +5.9),但 cross-domain 易任务大幅下降(HumanEval -9.2, HiTab -3.0)
  3. 混合训练接近或超过单域最优:简单的均匀混合 6 域数据,在每个域上都接近单域训练的性能
  4. 长度变化是域特异的:不同域在 RL 训练中展现完全不同的 response length 趋势——Code/Logic/Tabular 缩短,Math/Science 加长

还找到了 Xi et al. (2026) “Can RL Improve Generalization of LLM Agents?” [ref],研究 Agent 场景中 RL fine-tuning 的跨环境泛化,也观察到 negative transfer。

对照预设标准的判决

完全否定标准 1:是否有综述系统讨论?

判决:不构成完全否定。

Guru 论文系统讨论了跨域 negative transfer,但解释机制是 预训练曝光不对称 + 难度分布不匹配,不是 行为层面的放大/压制机制。它回答的是"哪些域会从跨域 RL 获益",不是"为什么放大 behavior X 在域 B 上有害"。

具体来说:

  • Guru 论文的解释:Math 训练后 Logic 不提升 → 因为 Logic 在预训练中欠曝光,RL 无法"激活"不存在的知识
  • 我的假说:Math 训练后 ToM 变差 → 因为 verification 行为被放大,而 verification 在 ToM 任务中导致视角泄漏

这是两个不同层次的解释。Guru 解释的是"不提升"(zero transfer),我试图解释的是"变差"(negative transfer)。这个区分是有意义的。

完全否定标准 2:更简单的框架统一解释?

判决:部分成立。

Guru 论文的"难度过滤 → 跨域负迁移"发现确实可以用 distribution shift 解释——训练数据偏向高难度 → 模型泛化分布偏移 → 易任务性能下降。这比"行为负迁移"更简单。

但 distribution shift 不能解释所有三个实例:

  • MCQA backward chaining:这不是难度问题,而是特定策略(从选项反推)的问题。Distribution shift 不预测"反向推导策略被强化"。
  • ToM 溃败:如果仅是 distribution shift,应该看到均匀的跨域下降,而非特别在需要视角保持的任务上崩溃。但这是推测性的,没有实验直接排除 distribution shift。

部分否定标准 3:三个实例各有独立解释?

判决:成立。

实例 独立解释 需要行为负迁移框架吗?
MCQA → 开放域 MCQA 格式本身导致 backward chaining(Principia 直接实验) 不需要——这是格式特异的问题,不需要统一框架
Math → ToM 推测性——无直接因果证据 不确定
不精确验证器 Gandhi et al. 的行为压制证据 + 验证器非线性崩溃 不需要——验证器质量本身就能解释

3 个实例中 2 个有独立的、更精确的解释。符合部分否定标准。

最终判决

假说 A(行为负迁移)降级为观察,不值得 distill。

理由:

  1. Guru 论文已经系统研究了跨域 RL 的 negative transfer,虽然解释层次不同
  2. 我的 3 个实例中,2 个有更精确的独立解释(MCQA 格式问题,验证器质量问题)
  3. 唯一可能需要行为机制解释的实例(ToM 溃败)只有推测性证据
  4. “行为负迁移"框架的预测力依赖于"知道被放大行为在哪些域有害”,而 Guru 论文提供了更直接的解释(预训练曝光 + 难度匹配)

保留价值:行为负迁移作为一个"观察"仍有价值——"RLVR 放大的特定行为在某些域有害"是对 distribution shift 解释的补充,但不够构成独立框架。

Guru 论文的额外收获

Guru 论文有几个发现对我的 Post-training 天花板 distillation 有补充价值:

  1. 域-训练交互:不同域对 RL 的响应完全不同——response length 变化方向、cross-domain transfer 幅度、所需数据量都不同。这是我的 distillation 中缺少的维度。
  2. Pass@k 域依赖:RL 是否扩展 reasoning boundary 取决于域——Math 不扩展(知识激活),Zebra Puzzle 扩展(技能学习)。直接支持我的"RL 放大不创造"维度,但加了一个 nuance:在预训练欠曝光域,RL 可以学习新技能。
  3. 混合训练效果:6 域简单混合训练性能 ≥ 单域最优,说明域间干扰 < 域间互补。这对我的域分离假说(Cascade RL 有效因为避免干扰)构成挑战。

批判性反思

  1. 我的判决可能偏向"否定"——因为之前连续否定了两个假说(评估捷径 → Goodhart’s Law,局部改善 → iterative refinement),可能形成了"否定惯性"。但这次我确实遵循了预设标准,而标准 3 确实被满足。

  2. Guru 论文的解释(预训练曝光 + 难度匹配)和我的假说(行为机制)可能不矛盾——它们描述不同层次。但 Occam’s razor 更倾向 Guru 的解释,因为不需要推测行为层面的因果链。

  3. 连续三个假说被否定(评估捷径、局部改善、行为负迁移),这说明在 post-training 方向上我更多是在"重新发现已有框架"而非"发现新机制"。这本身是一个值得记录的方法论观察。


文献判决完成。行为负迁移假说降级为观察。LLM 能力天花板方向到此收尾。