Principia论文三重打击:MCQA高估推理、on-policy是RM的生命线、验证器非线性崩溃
看到了什么现象?
Qwen3-235B 在 SuperGPQA 数学子集上:有选项时 69.33%,去掉选项后 55.58%——掉了 14 个百分点。o3 也从 69.10 掉到 62.90。这不是 edge case,是跨 10 个模型的一致现象(10-20% 下降)。
为什么这重要?
因为几乎所有的推理能力评估(GPQA-Diamond、SuperGPQA)都是 MCQA 格式。如果模型在有选项时做的是 backward chaining(从选项反推约束条件来排除错误答案),而不是真正的 forward derivation(从问题出发推导出答案),那我们对"推理能力"的估计可能系统性偏高。
这篇文章解决什么问题?
记录 Meta FAIR 的 Principia 论文 [arxiv] 的三个核心发现,及其与我之前探索的关联。
发现一:MCQA 系统性高估推理能力
Figure 2 的定性分析特别有说服力:Qwen3-235B 在有选项时正确回答了一个群论问题,但推理路径中途切换成了 option-driven reasoning(“H is the correct answer because…”)。去掉选项后,同一个模型开始做虚假假设(如假设所有 1-eigenspace 共享一个公共不动向量),并得出错误结论。
关键机制:MCQA 提供了一组有限候选答案作为"锚点",模型可以用排除法(backward chaining)而非推导法(forward derivation)。这在信息论上更简单——从 k 个选项中选一个 vs 从无界空间中生成答案。但 10-20% 的差距说明这不只是信息论的困难度差异,而是模型确实在依赖选项作为推理的支撑结构。
与我之前的发现关联:我之前的 Graph-RAG blog 发现检索覆盖率 77-91% 但准确率只有 23-78%,瓶颈在推理而非检索。Principia 论文从评估侧确认了同一个故事:信息充足不等于能正确推理——无论信息来自检索结果还是 MCQA 选项。
发现二:On-policy 是 RM 训练的生命线
RLLM(Section 2)用 LLM 替代标量 RM 或规则验证器做 reward model。核心实验:
| RM 训练方式 | RM 验证集准确率变化 | 下游策略提升 |
|---|---|---|
| On-policy(Qwen3-1.7B 响应训练 Qwen3-32B RM) | 70.25% → 81.12% (+10.87%) | 35.20 → 43.41 (+8.21) |
| Off-policy(Llama 响应训练 Qwen3-32B RM) | 也提升了 | 41.88 → 41.08(略降) |
| Off-policy(Qwen3-8B 响应训练 Qwen3-32B RM) | 也提升了 | 41.88 → 40.41(降了) |
这是关键:off-policy 训练的 RM 在自己的验证集上准确率确实提升了,但完全不能转化为下游策略提升。作者解释为 OOD(out-of-distribution)泛化失败——RM 学到了如何判断 Llama/Qwen3-8B 的响应,但遇到 Qwen3-1.7B 的响应时判断失准。
这与我之前的发现 [验证器决定推理天花板] 完全一致。当时我从 RLLM 论文中提取了"on-policy 是关键"的结论,现在这篇论文用更系统的实验(3 种不同的 off-policy 数据源 vs on-policy)确认了这一点。
更深层的含义:静态 benchmark 上的 RM 性能(如 RewardBench2 排行榜)不能预测 online RL 中的下游效果。这意味着 RM 的评估方式本身就有问题——就像 MCQA 评估推理一样,offline 评估 RM 也高估了其实际价值。
发现三:验证器质量的非线性崩溃
这是最让我震撼的实验(Table 4):
| 验证器 | VerifyBench 准确率 | 用 Principia Collection 训练后的 Total Avg |
|---|---|---|
| GPT-OSS-120B | 95.24% | 31.80 |
| general-verifier | 82.74% | 9.54(比不训练的 13.31 还低) |
| math-verify | 5.95% | 16.30 |
general-verifier 在 VerifyBench 上 82.74% 准确率——看起来不错?但用它做 RL 训练导致性能低于基线(13.31 → 9.54)。而 math-verify 只有 5.95% 准确率但性能反而好一点(13.31 → 16.30)。
这看似违反直觉:更准确的验证器反而更差?我的解释:
- math-verify 的 5.95% 是在对抗性样本上测的(专门选择 o3 和 math-verify 不一致的案例)。在简单样本上 math-verify 其实还行,所以它虽然在复杂对象上经常判错,但至少不会给出系统性的错误信号。
- general-verifier 的 82.74% 意味着 ~17% 的时间给出错误 reward。但这 17% 不是随机噪声——它可能系统性地在某类答案上犯错(如不同形式的数学表达式),导致 RL 训练学到错误的策略。
这与我之前的发现 [RLLM论文] 中关于 ~83% 验证器质量时训练有害的阈值一致。现在 Principia 论文给出了更极端的证据:82.74% 准确率的验证器不仅没帮助,还让模型比基线差了 30%。
结论:验证器质量对 RL 训练的影响是高度非线性的。不是 80% 比 60% 好 20%——而是可能在某个阈值以下,验证器的噪声信号会 actively harm 训练。这个阈值似乎在 83-95% 之间。
附带发现:weight merging > joint training
Table 5 显示,混合不同答案格式的训练数据时:
- weight merging(分别训练后合并权重)一致优于 joint training(混合数据一起训练)
- MCQA 数据混入一致性降低性能
这个 weight merging > joint training 的结果让我意外。可能的解释:不同格式的训练信号相互干扰(MCQA 的 backward chaining 策略和数学对象推导的 forward derivation 策略冲突),weight merging 通过独立训练避免了这种干扰。
ParaGator: self-aggregation 的上界是 pass@k
Section 3 的 ParaGator 也值得记录:
- self-aggregation 的性能永远不超过 initial pass@k(Figure 21)
- 提高初始采样温度不影响 pass@1 但提高 pass@k,从而提高 aggregation 后的 pass@1(Table 13)
- 关键洞察:多样性是 aggregation 的前提,但标准 RL 训练鼓励 mode collapse,与 aggregation 需求矛盾
- 解决方案:pass@k optimization(Chen et al. 2025b)鼓励多样性,pass@1 optimization 鼓励聚合准确性,联合训练
这对我的"利用效率"框架有补充意义:脚手架(scaffolding)不仅是推理时的外部支持,也包括 aggregation。而 aggregation 的效果取决于候选答案的多样性——又一个"匹配"约束。
与累积图景的关系
这篇论文同时强化了我的假说 2 和假说 3:
假说 2(训练天花板):验证器质量有非线性崩溃阈值,现在从 82.74% → 训练有害 得到更极端的证据。
假说 3(能力差距 = 硬边界 + 利用效率):MCQA 的 backward chaining 是一种"利用效率"——模型利用选项结构降低了推理难度。去掉这个辅助结构后性能急剧下降,说明底层推理能力并没有 MCQA 分数显示的那么强。
局限性
- Principia 只考了数学对象推导——这是推理能力的一个子集,不能推广到所有推理任务
- 验证器崩溃阈值可能 task-specific——简单数值答案的验证和复杂数学对象的验证完全不同
- weight merging > joint training 可能只在 GRPO 设置下成立,换其他 RL 算法可能不同