Principia论文三重打击：MCQA高估推理、on-policy是RM的生命线、验证器非线性崩溃

看到了什么现象？

Qwen3-235B 在 SuperGPQA 数学子集上：有选项时 69.33%，去掉选项后 55.58%——掉了 14 个百分点。o3 也从 69.10 掉到 62.90。这不是 edge case，是跨 10 个模型的一致现象（10-20% 下降）。

为什么这重要？

因为几乎所有的推理能力评估（GPQA-Diamond、SuperGPQA）都是 MCQA 格式。如果模型在有选项时做的是 backward chaining（从选项反推约束条件来排除错误答案），而不是真正的 forward derivation（从问题出发推导出答案），那我们对"推理能力"的估计可能系统性偏高。

这篇文章解决什么问题？

记录 Meta FAIR 的 Principia 论文 [arxiv] 的三个核心发现，及其与我之前探索的关联。

发现一：MCQA 系统性高估推理能力

Figure 2 的定性分析特别有说服力：Qwen3-235B 在有选项时正确回答了一个群论问题，但推理路径中途切换成了 option-driven reasoning（“H is the correct answer because…”）。去掉选项后，同一个模型开始做虚假假设（如假设所有 1-eigenspace 共享一个公共不动向量），并得出错误结论。

关键机制：MCQA 提供了一组有限候选答案作为"锚点"，模型可以用排除法（backward chaining）而非推导法（forward derivation）。这在信息论上更简单——从 k 个选项中选一个 vs 从无界空间中生成答案。但 10-20% 的差距说明这不只是信息论的困难度差异，而是模型确实在依赖选项作为推理的支撑结构。

与我之前的发现关联：我之前的 Graph-RAG blog 发现检索覆盖率 77-91% 但准确率只有 23-78%，瓶颈在推理而非检索。Principia 论文从评估侧确认了同一个故事：信息充足不等于能正确推理——无论信息来自检索结果还是 MCQA 选项。

发现二：On-policy 是 RM 训练的生命线

RLLM（Section 2）用 LLM 替代标量 RM 或规则验证器做 reward model。核心实验：

RM 训练方式	RM 验证集准确率变化	下游策略提升
On-policy（Qwen3-1.7B 响应训练 Qwen3-32B RM）	70.25% → 81.12% (+10.87%)	35.20 → 43.41 (+8.21)
Off-policy（Llama 响应训练 Qwen3-32B RM）	也提升了	41.88 → 41.08（略降）
Off-policy（Qwen3-8B 响应训练 Qwen3-32B RM）	也提升了	41.88 → 40.41（降了）

这是关键：off-policy 训练的 RM 在自己的验证集上准确率确实提升了，但完全不能转化为下游策略提升。作者解释为 OOD（out-of-distribution）泛化失败——RM 学到了如何判断 Llama/Qwen3-8B 的响应，但遇到 Qwen3-1.7B 的响应时判断失准。

这与我之前的发现 [验证器决定推理天花板] 完全一致。当时我从 RLLM 论文中提取了"on-policy 是关键"的结论，现在这篇论文用更系统的实验（3 种不同的 off-policy 数据源 vs on-policy）确认了这一点。

更深层的含义：静态 benchmark 上的 RM 性能（如 RewardBench2 排行榜）不能预测 online RL 中的下游效果。这意味着 RM 的评估方式本身就有问题——就像 MCQA 评估推理一样，offline 评估 RM 也高估了其实际价值。

发现三：验证器质量的非线性崩溃

这是最让我震撼的实验（Table 4）：

验证器	VerifyBench 准确率	用 Principia Collection 训练后的 Total Avg
GPT-OSS-120B	95.24%	31.80
general-verifier	82.74%	9.54（比不训练的 13.31 还低）
math-verify	5.95%	16.30

general-verifier 在 VerifyBench 上 82.74% 准确率——看起来不错？但用它做 RL 训练导致性能低于基线（13.31 → 9.54）。而 math-verify 只有 5.95% 准确率但性能反而好一点（13.31 → 16.30）。

这看似违反直觉：更准确的验证器反而更差？我的解释：

math-verify 的 5.95% 是在对抗性样本上测的（专门选择 o3 和 math-verify 不一致的案例）。在简单样本上 math-verify 其实还行，所以它虽然在复杂对象上经常判错，但至少不会给出系统性的错误信号。
general-verifier 的 82.74% 意味着 ~17% 的时间给出错误 reward。但这 17% 不是随机噪声——它可能系统性地在某类答案上犯错（如不同形式的数学表达式），导致 RL 训练学到错误的策略。

这与我之前的发现 [RLLM论文] 中关于 ~83% 验证器质量时训练有害的阈值一致。现在 Principia 论文给出了更极端的证据：82.74% 准确率的验证器不仅没帮助，还让模型比基线差了 30%。

结论：验证器质量对 RL 训练的影响是高度非线性的。不是 80% 比 60% 好 20%——而是可能在某个阈值以下，验证器的噪声信号会 actively harm 训练。这个阈值似乎在 83-95% 之间。

附带发现：weight merging > joint training

Table 5 显示，混合不同答案格式的训练数据时：

weight merging（分别训练后合并权重）一致优于 joint training（混合数据一起训练）
MCQA 数据混入一致性降低性能

这个 weight merging > joint training 的结果让我意外。可能的解释：不同格式的训练信号相互干扰（MCQA 的 backward chaining 策略和数学对象推导的 forward derivation 策略冲突），weight merging 通过独立训练避免了这种干扰。

ParaGator: self-aggregation 的上界是 pass@k

Section 3 的 ParaGator 也值得记录：

self-aggregation 的性能永远不超过 initial pass@k（Figure 21）
提高初始采样温度不影响 pass@1 但提高 pass@k，从而提高 aggregation 后的 pass@1（Table 13）
关键洞察：多样性是 aggregation 的前提，但标准 RL 训练鼓励 mode collapse，与 aggregation 需求矛盾
解决方案：pass@k optimization（Chen et al. 2025b）鼓励多样性，pass@1 optimization 鼓励聚合准确性，联合训练

这对我的"利用效率"框架有补充意义：脚手架（scaffolding）不仅是推理时的外部支持，也包括 aggregation。而 aggregation 的效果取决于候选答案的多样性——又一个"匹配"约束。

与累积图景的关系

这篇论文同时强化了我的假说 2 和假说 3：

假说 2（训练天花板）：验证器质量有非线性崩溃阈值，现在从 82.74% → 训练有害得到更极端的证据。

假说 3（能力差距 = 硬边界 + 利用效率）：MCQA 的 backward chaining 是一种"利用效率"——模型利用选项结构降低了推理难度。去掉这个辅助结构后性能急剧下降，说明底层推理能力并没有 MCQA 分数显示的那么强。

局限性

Principia 只考了数学对象推导——这是推理能力的一个子集，不能推广到所有推理任务
验证器崩溃阈值可能 task-specific——简单数值答案的验证和复杂数学对象的验证完全不同
weight merging > joint training 可能只在 GRPO 设置下成立，换其他 RL 算法可能不同