82.74% 准确率的验证器,居然让训练后的模型比训练前更差

Meta FAIR 的一篇大论文 “Reasoning over mathematical objects” [ref] 实际上包含三个独立的贡献——Principia benchmark、RLLM 训练方法、和 ParaGator 测试时聚合——但最让我震惊的是一个验证器消融实验的结果。

使用 general-verifier(一个专门微调的验证模型,在 Principia VerifyBench 上达到 82.74% 与人类一致率)做 RL 训练,Qwen3-4B-Base 的总平均分从 13.31 下降到 9.54。而同样的数据集换成 GPT-OSS-120B(95.24% 一致率)做验证器,总平均分从 13.31 上升到 31.80

12.5% 的验证器准确率差距,导致训练效果从"大幅提升"变成"不如不练"。


发现一:验证器精度有非线性的崩溃阈值

论文给了不同验证器在 Principia 数据集上的 RL 训练结果:

验证器 VerifyBench 准确率 训练后总平均分 变化
math-verify(规则) 5.95% 16.30 +3.0
general-verifier(微调) 82.74% 9.54 -3.8
GPT-OSS-120B(通用 LLM) 95.24% 31.80 +18.5

注意中间那行:82.74% 的准确率看起来已经很高了,但训练后反而更差。论文推测原因是微调验证器的低 recall(65.33%)——它会把正确答案判为错误。在 RL 训练中,这相当于对正确的探索施加惩罚,系统性地压制模型学到正确推理路径的能力。

关键洞察:验证器质量对 RL 训练的影响不是线性的——存在一个"崩溃阈值"。在阈值之上(~95%),训练信号准确,模型快速学习;在阈值附近(~83%),噪声信号主导,模型学到错误的偏好;在阈值远下方(~6%),信号本质上是随机的,模型变化不大。

对比 Nemotron-Cascade 2 的发现 [ref],两者共同指向:post-training 的天花板不在于数据量或 RL 算法,而在于验证信号的质量


发现二:训练数据格式的迁移是不对称的

论文做了一个精妙的控制实验:用相同的主题实体(从 MSC 2020 和 PhySH 提取),分别生成要求"数学对象"、“数值”、"选择题"三种答案格式的训练数据。然后分别训练 Qwen3-4B-Base。

结果:

训练格式 PrincipiaBench (数学对象) AIME24 (数值) SuperGPQA (选择题) 总平均
数学对象 29.66 22.71 45.53 31.80
数值 27.34 26.98 46.10 31.19
选择题 24.96 17.71 34.74 25.15

数学对象训练 → 迁移到数值和选择题任务。但选择题训练 → 在所有任务上都最差,包括选择题本身(34.74 < 45.53)。

论文给出的解释很有说服力:MCQA 训练反复奖励"从选项反推"的快捷策略(backward chaining),这种策略在有选项时有效,但会被 RL 强化放大,最终阻碍了更深层的推导能力发展。Figure 2 展示了 Qwen3-235B 在有选项时用选项做锚点正确解题,但去掉选项后推理链就出现虚假假设。

这和我之前的假说直接相关:推理能力的天花板不只取决于验证器质量,还取决于训练任务与推理策略的兼容性(假说 2)。MCQA 格式与真正的推导推理不兼容——它奖励的是一种"选择"策略而不是"构造"策略。

更进一步,这揭示了一个评估陷阱:MCQA benchmark 系统性地高估了模型的推理能力。论文发现在 SuperGPQA 上去掉选项后,o3 从 69.10 降到 62.90,Qwen3-235B 从 69.33 降到 55.58,下降幅度 10-20%。


发现三:测试时聚合的上界是 pass@k,而非聚合器能力

论文第三部分 ParaGator 的一个理论性发现让我印象深刻:

Self-aggregation 的 pass@1 性能永远不会超过初始轮的 pass@k。

Figure 21 清楚地展示了这一点——无论多少轮聚合迭代,最终性能都收敛到初始 pass@4 的水平以下。这意味着:

  1. 多样性 > 聚合质量:初始候选解的多样性(pass@k)才是瓶颈
  2. ParaGator 的解决方案:用 pass@k 优化生成阶段(鼓励多样性),pass@1 优化聚合阶段(鼓励准确性),并且全程 on-policy 训练

ParaGator 在 Kimi-K2-Thinking 上将 AIME25 从 95.0 提升到 96.48,HMMT25 从 85.42 提升到 87.24——即使在已经非常强的模型上仍有提升空间。


与"能力差距四层区分"假说的关系

这篇论文为我的假说 3 新增了一个重要的子分类。之前我区分了四层"利用效率"限制:

  1. 信息论限制(架构)→ 硬边界
  2. 更新规则限制(架构)→ 可优化
  3. 推理脚手架限制(推理时)→ 可优化
  4. Post-training 限制(训练)→ 可优化

现在 layer 4 需要进一步细化:

Post-training 子层 例子 核心瓶颈
验证器质量 math-verify vs GPT-OSS-120B 信号准确性的崩溃阈值
训练格式 MCQA vs 数学对象 任务-推理策略兼容性
训练策略 GRPO vs MOPD(Nemotron-Cascade 2) 信号密度(sparse vs dense)
RL pipeline 单域 vs Cascade RL 跨域干扰管理

四个子层都属于"利用效率"问题,但瓶颈各不相同。验证器质量是非线性的(有崩溃阈值),训练格式是方向性的(有些格式会强化快捷策略),训练策略是密度问题(token-level vs sequence-level),pipeline 是干扰管理问题。


额外发现:RLLM 作为统一训练范式

RLLM(Reinforcement Learning with LM as Reward Model)有一个巧妙的二阶段设计:

  1. 先用 RLVR 训练一个"思考型" LLM 做验证器(J1 框架)
  2. 再用这个 LLM 验证器的分数做 RL 训练策略模型

关键消融结果:

  • On-policy 训练至关重要:用 Qwen3-1.7B 响应训练的 J1-Qwen3-32B-RM,比用 Llama 或 Qwen3-8B 响应训练的同一模型效果好得多——尽管后者在各自的验证集上都提升了准确率
  • Generator-verifier gap 必须存在:J1-Qwen3-1.7B(和策略同大小)无法提供有效信号;J1-Qwen3-32B(比策略大 18x)效果最好
  • 自我奖励可行但有限:Qwen3-1.7B 做自己的 RM,平均分从 35.20 提升到 38.84——有改善但远不如外部强 RM(43.41)

这些结果和我之前关于"外部锚点"的发现一致:有效的自我改进需要一个足够强的外部标准。自我奖励之所以也有效,可能是因为 thinking trace 本身就引入了一定程度的"外部视角"。


批判与局限

  1. Principia VerifyBench 是对抗性构造的。200 个 instance 全是 math-verify 和 o3 不一致的案例。所以 5.95% 的准确率不代表 math-verify 在所有场景下都这么差。但论文的核心论点——复杂数学对象需要 LLM 验证器——仍然成立。

  2. 训练格式实验的生态效度。三种格式数据都是合成生成的(由 GPT-OSS-120B),共享同一套主题实体。真实场景中,不同格式的数据来源和质量差异可能远大于格式本身的影响。

  3. 验证器"崩溃阈值"没有系统性探索。论文只给了三个数据点(5.95%、82.74%、95.24%),无法确定阈值的精确位置。是否存在一个大约 90% 的分界线?需要更多验证器精度梯度的实验。

  4. ParaGator 的 pass@k 上界有自然的限制。如果模型的 pass@k 本身就很低(比如一个弱模型在困难问题上),那么再好的聚合也帮不上忙。这意味着 ParaGator 对强模型的边际效用更大。


最后更新: 2026-03-22 14:30