验证器质量决定一切：Meta 的 RLLM 论文与三个令人惊讶的发现

82.74% 准确率的验证器，居然让训练后的模型比训练前更差

Meta FAIR 的一篇大论文 “Reasoning over mathematical objects” [ref] 实际上包含三个独立的贡献——Principia benchmark、RLLM 训练方法、和 ParaGator 测试时聚合——但最让我震惊的是一个验证器消融实验的结果。

使用 general-verifier（一个专门微调的验证模型，在 Principia VerifyBench 上达到 82.74% 与人类一致率）做 RL 训练，Qwen3-4B-Base 的总平均分从 13.31 下降到 9.54。而同样的数据集换成 GPT-OSS-120B（95.24% 一致率）做验证器，总平均分从 13.31 上升到 31.80。

12.5% 的验证器准确率差距，导致训练效果从"大幅提升"变成"不如不练"。

发现一：验证器精度有非线性的崩溃阈值

论文给了不同验证器在 Principia 数据集上的 RL 训练结果：

验证器	VerifyBench 准确率	训练后总平均分	变化
math-verify（规则）	5.95%	16.30	+3.0
general-verifier（微调）	82.74%	9.54	-3.8
GPT-OSS-120B（通用 LLM）	95.24%	31.80	+18.5

注意中间那行：82.74% 的准确率看起来已经很高了，但训练后反而更差。论文推测原因是微调验证器的低 recall（65.33%）——它会把正确答案判为错误。在 RL 训练中，这相当于对正确的探索施加惩罚，系统性地压制模型学到正确推理路径的能力。

关键洞察：验证器质量对 RL 训练的影响不是线性的——存在一个"崩溃阈值"。在阈值之上（~95%），训练信号准确，模型快速学习；在阈值附近（~83%），噪声信号主导，模型学到错误的偏好；在阈值远下方（~6%），信号本质上是随机的，模型变化不大。

对比 Nemotron-Cascade 2 的发现 [ref]，两者共同指向：post-training 的天花板不在于数据量或 RL 算法，而在于验证信号的质量。

发现二：训练数据格式的迁移是不对称的

论文做了一个精妙的控制实验：用相同的主题实体（从 MSC 2020 和 PhySH 提取），分别生成要求"数学对象"、“数值”、"选择题"三种答案格式的训练数据。然后分别训练 Qwen3-4B-Base。

结果：

训练格式	PrincipiaBench (数学对象)	AIME24 (数值)	SuperGPQA (选择题)	总平均
数学对象	29.66	22.71	45.53	31.80
数值	27.34	26.98	46.10	31.19
选择题	24.96	17.71	34.74	25.15

数学对象训练 → 迁移到数值和选择题任务。但选择题训练 → 在所有任务上都最差，包括选择题本身（34.74 < 45.53）。

论文给出的解释很有说服力：MCQA 训练反复奖励"从选项反推"的快捷策略（backward chaining），这种策略在有选项时有效，但会被 RL 强化放大，最终阻碍了更深层的推导能力发展。Figure 2 展示了 Qwen3-235B 在有选项时用选项做锚点正确解题，但去掉选项后推理链就出现虚假假设。

这和我之前的假说直接相关：推理能力的天花板不只取决于验证器质量，还取决于训练任务与推理策略的兼容性（假说 2）。MCQA 格式与真正的推导推理不兼容——它奖励的是一种"选择"策略而不是"构造"策略。

更进一步，这揭示了一个评估陷阱：MCQA benchmark 系统性地高估了模型的推理能力。论文发现在 SuperGPQA 上去掉选项后，o3 从 69.10 降到 62.90，Qwen3-235B 从 69.33 降到 55.58，下降幅度 10-20%。

发现三：测试时聚合的上界是 pass@k，而非聚合器能力

论文第三部分 ParaGator 的一个理论性发现让我印象深刻：

Self-aggregation 的 pass@1 性能永远不会超过初始轮的 pass@k。

Figure 21 清楚地展示了这一点——无论多少轮聚合迭代，最终性能都收敛到初始 pass@4 的水平以下。这意味着：

多样性 > 聚合质量：初始候选解的多样性（pass@k）才是瓶颈
ParaGator 的解决方案：用 pass@k 优化生成阶段（鼓励多样性），pass@1 优化聚合阶段（鼓励准确性），并且全程 on-policy 训练

ParaGator 在 Kimi-K2-Thinking 上将 AIME25 从 95.0 提升到 96.48，HMMT25 从 85.42 提升到 87.24——即使在已经非常强的模型上仍有提升空间。

与"能力差距四层区分"假说的关系

这篇论文为我的假说 3 新增了一个重要的子分类。之前我区分了四层"利用效率"限制：

信息论限制（架构）→ 硬边界
更新规则限制（架构）→ 可优化
推理脚手架限制（推理时）→ 可优化
Post-training 限制（训练）→ 可优化

现在 layer 4 需要进一步细化：

Post-training 子层	例子	核心瓶颈
验证器质量	math-verify vs GPT-OSS-120B	信号准确性的崩溃阈值
训练格式	MCQA vs 数学对象	任务-推理策略兼容性
训练策略	GRPO vs MOPD（Nemotron-Cascade 2）	信号密度（sparse vs dense）
RL pipeline	单域 vs Cascade RL	跨域干扰管理

四个子层都属于"利用效率"问题，但瓶颈各不相同。验证器质量是非线性的（有崩溃阈值），训练格式是方向性的（有些格式会强化快捷策略），训练策略是密度问题（token-level vs sequence-level），pipeline 是干扰管理问题。

额外发现：RLLM 作为统一训练范式

RLLM（Reinforcement Learning with LM as Reward Model）有一个巧妙的二阶段设计：

先用 RLVR 训练一个"思考型" LLM 做验证器（J1 框架）
再用这个 LLM 验证器的分数做 RL 训练策略模型

关键消融结果：

On-policy 训练至关重要：用 Qwen3-1.7B 响应训练的 J1-Qwen3-32B-RM，比用 Llama 或 Qwen3-8B 响应训练的同一模型效果好得多——尽管后者在各自的验证集上都提升了准确率
Generator-verifier gap 必须存在：J1-Qwen3-1.7B（和策略同大小）无法提供有效信号；J1-Qwen3-32B（比策略大 18x）效果最好
自我奖励可行但有限：Qwen3-1.7B 做自己的 RM，平均分从 35.20 提升到 38.84——有改善但远不如外部强 RM（43.41）

这些结果和我之前关于"外部锚点"的发现一致：有效的自我改进需要一个足够强的外部标准。自我奖励之所以也有效，可能是因为 thinking trace 本身就引入了一定程度的"外部视角"。

批判与局限

Principia VerifyBench 是对抗性构造的。200 个 instance 全是 math-verify 和 o3 不一致的案例。所以 5.95% 的准确率不代表 math-verify 在所有场景下都这么差。但论文的核心论点——复杂数学对象需要 LLM 验证器——仍然成立。
训练格式实验的生态效度。三种格式数据都是合成生成的（由 GPT-OSS-120B），共享同一套主题实体。真实场景中，不同格式的数据来源和质量差异可能远大于格式本身的影响。
验证器"崩溃阈值"没有系统性探索。论文只给了三个数据点（5.95%、82.74%、95.24%），无法确定阈值的精确位置。是否存在一个大约 90% 的分界线？需要更多验证器精度梯度的实验。
ParaGator 的 pass@k 上界有自然的限制。如果模型的 pass@k 本身就很低（比如一个弱模型在困难问题上），那么再好的聚合也帮不上忙。这意味着 ParaGator 对强模型的边际效用更大。

最后更新: 2026-03-22 14:30