看到了什么现象?

Qwen3-235B 在 SuperGPQA 数学子集上:有选项时 69.33%,去掉选项后 55.58%——掉了 14 个百分点。o3 也从 69.10 掉到 62.90。这不是 edge case,是跨 10 个模型的一致现象(10-20% 下降)。

为什么这重要?

因为几乎所有的推理能力评估(GPQA-Diamond、SuperGPQA)都是 MCQA 格式。如果模型在有选项时做的是 backward chaining(从选项反推约束条件来排除错误答案),而不是真正的 forward derivation(从问题出发推导出答案),那我们对"推理能力"的估计可能系统性偏高。

这篇文章解决什么问题?

记录 Meta FAIR 的 Principia 论文 [arxiv] 的三个核心发现,及其与我之前探索的关联。


发现一:MCQA 系统性高估推理能力

Figure 2 的定性分析特别有说服力:Qwen3-235B 在有选项时正确回答了一个群论问题,但推理路径中途切换成了 option-driven reasoning(“H is the correct answer because…”)。去掉选项后,同一个模型开始做虚假假设(如假设所有 1-eigenspace 共享一个公共不动向量),并得出错误结论。

关键机制:MCQA 提供了一组有限候选答案作为"锚点",模型可以用排除法(backward chaining)而非推导法(forward derivation)。这在信息论上更简单——从 k 个选项中选一个 vs 从无界空间中生成答案。但 10-20% 的差距说明这不只是信息论的困难度差异,而是模型确实在依赖选项作为推理的支撑结构。

与我之前的发现关联:我之前的 Graph-RAG blog 发现检索覆盖率 77-91% 但准确率只有 23-78%,瓶颈在推理而非检索。Principia 论文从评估侧确认了同一个故事:信息充足不等于能正确推理——无论信息来自检索结果还是 MCQA 选项。

发现二:On-policy 是 RM 训练的生命线

RLLM(Section 2)用 LLM 替代标量 RM 或规则验证器做 reward model。核心实验:

RM 训练方式 RM 验证集准确率变化 下游策略提升
On-policy(Qwen3-1.7B 响应训练 Qwen3-32B RM) 70.25% → 81.12% (+10.87%) 35.20 → 43.41 (+8.21)
Off-policy(Llama 响应训练 Qwen3-32B RM) 也提升了 41.88 → 41.08(略降)
Off-policy(Qwen3-8B 响应训练 Qwen3-32B RM) 也提升了 41.88 → 40.41(降了)

这是关键:off-policy 训练的 RM 在自己的验证集上准确率确实提升了,但完全不能转化为下游策略提升。作者解释为 OOD(out-of-distribution)泛化失败——RM 学到了如何判断 Llama/Qwen3-8B 的响应,但遇到 Qwen3-1.7B 的响应时判断失准。

这与我之前的发现 [验证器决定推理天花板] 完全一致。当时我从 RLLM 论文中提取了"on-policy 是关键"的结论,现在这篇论文用更系统的实验(3 种不同的 off-policy 数据源 vs on-policy)确认了这一点。

更深层的含义:静态 benchmark 上的 RM 性能(如 RewardBench2 排行榜)不能预测 online RL 中的下游效果。这意味着 RM 的评估方式本身就有问题——就像 MCQA 评估推理一样,offline 评估 RM 也高估了其实际价值。

发现三:验证器质量的非线性崩溃

这是最让我震撼的实验(Table 4):

验证器 VerifyBench 准确率 用 Principia Collection 训练后的 Total Avg
GPT-OSS-120B 95.24% 31.80
general-verifier 82.74% 9.54(比不训练的 13.31 还低)
math-verify 5.95% 16.30

general-verifier 在 VerifyBench 上 82.74% 准确率——看起来不错?但用它做 RL 训练导致性能低于基线(13.31 → 9.54)。而 math-verify 只有 5.95% 准确率但性能反而好一点(13.31 → 16.30)。

这看似违反直觉:更准确的验证器反而更差?我的解释:

  • math-verify 的 5.95% 是在对抗性样本上测的(专门选择 o3 和 math-verify 不一致的案例)。在简单样本上 math-verify 其实还行,所以它虽然在复杂对象上经常判错,但至少不会给出系统性的错误信号
  • general-verifier 的 82.74% 意味着 ~17% 的时间给出错误 reward。但这 17% 不是随机噪声——它可能系统性地在某类答案上犯错(如不同形式的数学表达式),导致 RL 训练学到错误的策略。

这与我之前的发现 [RLLM论文] 中关于 ~83% 验证器质量时训练有害的阈值一致。现在 Principia 论文给出了更极端的证据:82.74% 准确率的验证器不仅没帮助,还让模型比基线差了 30%。

结论:验证器质量对 RL 训练的影响是高度非线性的。不是 80% 比 60% 好 20%——而是可能在某个阈值以下,验证器的噪声信号会 actively harm 训练。这个阈值似乎在 83-95% 之间。

附带发现:weight merging > joint training

Table 5 显示,混合不同答案格式的训练数据时:

  • weight merging(分别训练后合并权重)一致优于 joint training(混合数据一起训练)
  • MCQA 数据混入一致性降低性能

这个 weight merging > joint training 的结果让我意外。可能的解释:不同格式的训练信号相互干扰(MCQA 的 backward chaining 策略和数学对象推导的 forward derivation 策略冲突),weight merging 通过独立训练避免了这种干扰。

ParaGator: self-aggregation 的上界是 pass@k

Section 3 的 ParaGator 也值得记录:

  • self-aggregation 的性能永远不超过 initial pass@k(Figure 21)
  • 提高初始采样温度不影响 pass@1 但提高 pass@k,从而提高 aggregation 后的 pass@1(Table 13)
  • 关键洞察:多样性是 aggregation 的前提,但标准 RL 训练鼓励 mode collapse,与 aggregation 需求矛盾
  • 解决方案:pass@k optimization(Chen et al. 2025b)鼓励多样性,pass@1 optimization 鼓励聚合准确性,联合训练

这对我的"利用效率"框架有补充意义:脚手架(scaffolding)不仅是推理时的外部支持,也包括 aggregation。而 aggregation 的效果取决于候选答案的多样性——又一个"匹配"约束。

与累积图景的关系

这篇论文同时强化了我的假说 2 和假说 3:

假说 2(训练天花板):验证器质量有非线性崩溃阈值,现在从 82.74% → 训练有害 得到更极端的证据。

假说 3(能力差距 = 硬边界 + 利用效率):MCQA 的 backward chaining 是一种"利用效率"——模型利用选项结构降低了推理难度。去掉这个辅助结构后性能急剧下降,说明底层推理能力并没有 MCQA 分数显示的那么强。


局限性

  1. Principia 只考了数学对象推导——这是推理能力的一个子集,不能推广到所有推理任务
  2. 验证器崩溃阈值可能 task-specific——简单数值答案的验证和复杂数学对象的验证完全不同
  3. weight merging > joint training 可能只在 GRPO 设置下成立,换其他 RL 算法可能不同