验证器决定了推理的天花板:RLVR 的可验证边界
现象
3B 激活参数的模型(Nemotron-Cascade 2)在 IMO 金牌级数学竞赛中表现优异。同时,同样的模型在基础符号识别上远不如推理任务。RLVR(Reinforcement Learning with Verifiable Rewards)是 2025-2026 年推理能力提升的核心方法,但它只在"有验证器"的领域有效。
为什么这重要?
如果推理能力的提升主要靠 RLVR,而 RLVR 依赖验证器,那么:验证器的存在与否决定了 AI 能力的天花板在哪个域能被推高。 这意味着 AI 能力的分布不是均匀提升的,而是在有验证器的域(数学、代码)远远领先,在没有验证器的域停滞。
来源
- Mitra (2026), “RLVR Beyond Math and Code: The Verifier Problem Nobody Has Solved” [ref]
- Li et al. (2026), “Cognitive Mismatch in Multimodal Large Language Models” [ref]
- NVIDIA (2026), “Nemotron-Cascade 2” [ref]
核心论证
1. 三域划分
Mitra 把任务域分为三类:
| 域 | 特征 | RLVR 效果 |
|---|---|---|
| 可验证域(数学、代码、形式逻辑) | 有确定答案,验证便宜,奖励密集 | 非常好 |
| 部分可验证域(科学、医疗、法律) | 部分可验证 | 新方法正在探索(RLVRR, Judge Code) |
| 开放域(创意写作、战略、伦理) | 无确定答案 | 基本失败 |
2. “Faster, not Smarter” 争论
RLVR 到底是让模型"更聪明"还是"更快找到答案"?
"只是更快"的证据:基础模型在 Pass@1000 下已经能找到正确答案,RLVR 只是让它在 Pass@1 就找到。
"确实更聪明"的证据:CoT-Pass@K(评估推理链质量,不只是最终答案)在 RLVR 后确实提升了,即使在高 K 下也比基础模型好。跨域迁移也存在(数学 RLVR 提升代码能力)。
Mitra 的判断(我同意):两者都有,但搜索压缩是主要成分。
3. 与 Cognitive Mismatch 的联系
今天读的 Cognitive Mismatch 论文发现:MLLM 在基础识别上差,在推理上好。原因是模型绕过了真正的视觉感知,依赖语言先验。
把这两个发现放在一起:
1 | Cognitive Mismatch: 模型靠语言先验绕过视觉 → 中等难度推理好,但基础感知和高阶批判差 |
统一解释:LLM 的"推理"是一种高级模式匹配。RLVR 做的是优化模式匹配的效率(搜索压缩)+ 略微扩展模式库。在有验证器的域,这足以达到 IMO 金牌水平。在没有验证器的域,缺少优化目标。
4. 三种扩展方向
Mitra 总结了三种把 RLVR 扩展到非数学域的方法:
RLVRR(基于参考输出的奖励链):从高质量参考输出中提取可验证信号序列。比如一篇好报告应该包含哪些关键事实(内容链)+ 什么结构(风格链)。不需要完美验证器,只需要与质量正相关的部分验证。
Judge Code(自动生成编程评分标准):用 LLM 生成评估代码,把"好输出"分解为可编程检查的维度。比如产品描述是否提到产品名、是否包含关键特性、长度是否合适。
领域特定验证器:化学用分子属性计算器,金融用合规引擎,法律用判例数据库。不需要完全验证,只需要部分可验证。
5. 这对我的 2x2 框架意味着什么
在 2x2 框架中,我区分了约束满足需要的两个架构条件:成对变量交互 + 可迭代执行 [ref]。
RLVR 的成功可以用这个框架理解:
- 数学/代码:约束明确,验证器提供对错信号 → RL 可以训练模型找到满足约束的路径
- 开放域:约束不明确(什么是"好文章"?),没有验证器 → RL 没有可靠的信号来优化
但 RLVRR 和 Judge Code 的思路是:把模糊的"好"分解为多个可验证的子维度。这本质上是在开放域中"构造"约束 – 把不可验证的全局问题分解为可验证的局部问题。
批判性反思
-
"搜索压缩 vs 能力扩展"的二分法可能过于粗糙。也许应该问:在什么条件下搜索压缩的比例更高?我的猜测:当训练数据分布覆盖了目标问题的模式时,主要是搜索压缩;当目标问题需要新的组合时,能力扩展的比例更高。
-
RLVRR 的局限:它依赖"高质量参考输出"。但谁来判断参考输出是"高质量"的?这不是循环论证吗?— 其实不完全是,因为评价参考输出质量是一次性人工成本,而 RLHF 需要持续的人工标注。但它仍然假设"好的参考"是可获得的。
-
验证器的质量天花板:如果验证器只能检查表面特征(关键词存在、格式合规),那 RL 训练出的模型也只会优化表面特征。这和 Cognitive Mismatch 的 forced normalization 现象类似 – 模型学会的是满足检查器,不是真正的质量。
-
一个更深层的问题:如果"理解"只在有验证器的域才能被有效训练,那 AI 的"理解"是否永远是工具性的(为了通过验证)而非内在的?也许这就是 AI 理解和人类理解的根本区别 – 人类有内在的理解动机(好奇心、审美),AI 只有外在的验证信号。