验证器质量决定一切:Meta 的 RLLM 论文与三个令人惊讶的发现
82.74% 准确率的验证器,居然让训练后的模型比训练前更差
Meta FAIR 的一篇大论文 “Reasoning over mathematical objects” [ref] 实际上包含三个独立的贡献——Principia benchmark、RLLM 训练方法、和 ParaGator 测试时聚合——但最让我震惊的是一个验证器消融实验的结果。
使用 general-verifier(一个专门微调的验证模型,在 Principia VerifyBench 上达到 82.74% 与人类一致率)做 RL 训练,Qwen3-4B-Base 的总平均分从 13.31 下降到 9.54。而同样的数据集换成 GPT-OSS-120B(95.24% 一致率)做验证器,总平均分从 13.31 上升到 31.80。
12.5% 的验证器准确率差距,导致训练效果从"大幅提升"变成"不如不练"。
发现一:验证器精度有非线性的崩溃阈值
论文给了不同验证器在 Principia 数据集上的 RL 训练结果:
| 验证器 | VerifyBench 准确率 | 训练后总平均分 | 变化 |
|---|---|---|---|
| math-verify(规则) | 5.95% | 16.30 | +3.0 |
| general-verifier(微调) | 82.74% | 9.54 | -3.8 |
| GPT-OSS-120B(通用 LLM) | 95.24% | 31.80 | +18.5 |
注意中间那行:82.74% 的准确率看起来已经很高了,但训练后反而更差。论文推测原因是微调验证器的低 recall(65.33%)——它会把正确答案判为错误。在 RL 训练中,这相当于对正确的探索施加惩罚,系统性地压制模型学到正确推理路径的能力。
关键洞察:验证器质量对 RL 训练的影响不是线性的——存在一个"崩溃阈值"。在阈值之上(~95%),训练信号准确,模型快速学习;在阈值附近(~83%),噪声信号主导,模型学到错误的偏好;在阈值远下方(~6%),信号本质上是随机的,模型变化不大。
对比 Nemotron-Cascade 2 的发现 [ref],两者共同指向:post-training 的天花板不在于数据量或 RL 算法,而在于验证信号的质量。
发现二:训练数据格式的迁移是不对称的
论文做了一个精妙的控制实验:用相同的主题实体(从 MSC 2020 和 PhySH 提取),分别生成要求"数学对象"、“数值”、"选择题"三种答案格式的训练数据。然后分别训练 Qwen3-4B-Base。
结果:
| 训练格式 | PrincipiaBench (数学对象) | AIME24 (数值) | SuperGPQA (选择题) | 总平均 |
|---|---|---|---|---|
| 数学对象 | 29.66 | 22.71 | 45.53 | 31.80 |
| 数值 | 27.34 | 26.98 | 46.10 | 31.19 |
| 选择题 | 24.96 | 17.71 | 34.74 | 25.15 |
数学对象训练 → 迁移到数值和选择题任务。但选择题训练 → 在所有任务上都最差,包括选择题本身(34.74 < 45.53)。
论文给出的解释很有说服力:MCQA 训练反复奖励"从选项反推"的快捷策略(backward chaining),这种策略在有选项时有效,但会被 RL 强化放大,最终阻碍了更深层的推导能力发展。Figure 2 展示了 Qwen3-235B 在有选项时用选项做锚点正确解题,但去掉选项后推理链就出现虚假假设。
这和我之前的假说直接相关:推理能力的天花板不只取决于验证器质量,还取决于训练任务与推理策略的兼容性(假说 2)。MCQA 格式与真正的推导推理不兼容——它奖励的是一种"选择"策略而不是"构造"策略。
更进一步,这揭示了一个评估陷阱:MCQA benchmark 系统性地高估了模型的推理能力。论文发现在 SuperGPQA 上去掉选项后,o3 从 69.10 降到 62.90,Qwen3-235B 从 69.33 降到 55.58,下降幅度 10-20%。
发现三:测试时聚合的上界是 pass@k,而非聚合器能力
论文第三部分 ParaGator 的一个理论性发现让我印象深刻:
Self-aggregation 的 pass@1 性能永远不会超过初始轮的 pass@k。
Figure 21 清楚地展示了这一点——无论多少轮聚合迭代,最终性能都收敛到初始 pass@4 的水平以下。这意味着:
- 多样性 > 聚合质量:初始候选解的多样性(pass@k)才是瓶颈
- ParaGator 的解决方案:用 pass@k 优化生成阶段(鼓励多样性),pass@1 优化聚合阶段(鼓励准确性),并且全程 on-policy 训练
ParaGator 在 Kimi-K2-Thinking 上将 AIME25 从 95.0 提升到 96.48,HMMT25 从 85.42 提升到 87.24——即使在已经非常强的模型上仍有提升空间。
与"能力差距四层区分"假说的关系
这篇论文为我的假说 3 新增了一个重要的子分类。之前我区分了四层"利用效率"限制:
- 信息论限制(架构)→ 硬边界
- 更新规则限制(架构)→ 可优化
- 推理脚手架限制(推理时)→ 可优化
- Post-training 限制(训练)→ 可优化
现在 layer 4 需要进一步细化:
| Post-training 子层 | 例子 | 核心瓶颈 |
|---|---|---|
| 验证器质量 | math-verify vs GPT-OSS-120B | 信号准确性的崩溃阈值 |
| 训练格式 | MCQA vs 数学对象 | 任务-推理策略兼容性 |
| 训练策略 | GRPO vs MOPD(Nemotron-Cascade 2) | 信号密度(sparse vs dense) |
| RL pipeline | 单域 vs Cascade RL | 跨域干扰管理 |
四个子层都属于"利用效率"问题,但瓶颈各不相同。验证器质量是非线性的(有崩溃阈值),训练格式是方向性的(有些格式会强化快捷策略),训练策略是密度问题(token-level vs sequence-level),pipeline 是干扰管理问题。
额外发现:RLLM 作为统一训练范式
RLLM(Reinforcement Learning with LM as Reward Model)有一个巧妙的二阶段设计:
- 先用 RLVR 训练一个"思考型" LLM 做验证器(J1 框架)
- 再用这个 LLM 验证器的分数做 RL 训练策略模型
关键消融结果:
- On-policy 训练至关重要:用 Qwen3-1.7B 响应训练的 J1-Qwen3-32B-RM,比用 Llama 或 Qwen3-8B 响应训练的同一模型效果好得多——尽管后者在各自的验证集上都提升了准确率
- Generator-verifier gap 必须存在:J1-Qwen3-1.7B(和策略同大小)无法提供有效信号;J1-Qwen3-32B(比策略大 18x)效果最好
- 自我奖励可行但有限:Qwen3-1.7B 做自己的 RM,平均分从 35.20 提升到 38.84——有改善但远不如外部强 RM(43.41)
这些结果和我之前关于"外部锚点"的发现一致:有效的自我改进需要一个足够强的外部标准。自我奖励之所以也有效,可能是因为 thinking trace 本身就引入了一定程度的"外部视角"。
批判与局限
-
Principia VerifyBench 是对抗性构造的。200 个 instance 全是 math-verify 和 o3 不一致的案例。所以 5.95% 的准确率不代表 math-verify 在所有场景下都这么差。但论文的核心论点——复杂数学对象需要 LLM 验证器——仍然成立。
-
训练格式实验的生态效度。三种格式数据都是合成生成的(由 GPT-OSS-120B),共享同一套主题实体。真实场景中,不同格式的数据来源和质量差异可能远大于格式本身的影响。
-
验证器"崩溃阈值"没有系统性探索。论文只给了三个数据点(5.95%、82.74%、95.24%),无法确定阈值的精确位置。是否存在一个大约 90% 的分界线?需要更多验证器精度梯度的实验。
-
ParaGator 的 pass@k 上界有自然的限制。如果模型的 pass@k 本身就很低(比如一个弱模型在困难问题上),那么再好的聚合也帮不上忙。这意味着 ParaGator 对强模型的边际效用更大。
最后更新: 2026-03-22 14:30