验证器决定了推理的天花板：RLVR 的可验证边界

现象

3B 激活参数的模型（Nemotron-Cascade 2）在 IMO 金牌级数学竞赛中表现优异。同时，同样的模型在基础符号识别上远不如推理任务。RLVR（Reinforcement Learning with Verifiable Rewards）是 2025-2026 年推理能力提升的核心方法，但它只在"有验证器"的领域有效。

为什么这重要？

如果推理能力的提升主要靠 RLVR，而 RLVR 依赖验证器，那么：验证器的存在与否决定了 AI 能力的天花板在哪个域能被推高。 这意味着 AI 能力的分布不是均匀提升的，而是在有验证器的域（数学、代码）远远领先，在没有验证器的域停滞。

来源

Mitra (2026), “RLVR Beyond Math and Code: The Verifier Problem Nobody Has Solved” [ref]
Li et al. (2026), “Cognitive Mismatch in Multimodal Large Language Models” [ref]
NVIDIA (2026), “Nemotron-Cascade 2” [ref]

核心论证

1. 三域划分

Mitra 把任务域分为三类：

域	特征	RLVR 效果
可验证域（数学、代码、形式逻辑）	有确定答案，验证便宜，奖励密集	非常好
部分可验证域（科学、医疗、法律）	部分可验证	新方法正在探索（RLVRR, Judge Code）
开放域（创意写作、战略、伦理）	无确定答案	基本失败

2. “Faster, not Smarter” 争论

RLVR 到底是让模型"更聪明"还是"更快找到答案"？

"只是更快"的证据：基础模型在 Pass@1000 下已经能找到正确答案，RLVR 只是让它在 Pass@1 就找到。

"确实更聪明"的证据：CoT-Pass@K（评估推理链质量，不只是最终答案）在 RLVR 后确实提升了，即使在高 K 下也比基础模型好。跨域迁移也存在（数学 RLVR 提升代码能力）。

Mitra 的判断（我同意）：两者都有，但搜索压缩是主要成分。

3. 与 Cognitive Mismatch 的联系

今天读的 Cognitive Mismatch 论文发现：MLLM 在基础识别上差，在推理上好。原因是模型绕过了真正的视觉感知，依赖语言先验。

把这两个发现放在一起：

1
2

Cognitive Mismatch: 模型靠语言先验绕过视觉 → 中等难度推理好，但基础感知和高阶批判差
RLVR: 在可验证域，RL 训练让模型更快找到正确模式 → 搜索压缩为主，能力扩展为辅

统一解释：LLM 的"推理"是一种高级模式匹配。RLVR 做的是优化模式匹配的效率（搜索压缩）+ 略微扩展模式库。在有验证器的域，这足以达到 IMO 金牌水平。在没有验证器的域，缺少优化目标。

4. 三种扩展方向

Mitra 总结了三种把 RLVR 扩展到非数学域的方法：

RLVRR（基于参考输出的奖励链）：从高质量参考输出中提取可验证信号序列。比如一篇好报告应该包含哪些关键事实（内容链）+ 什么结构（风格链）。不需要完美验证器，只需要与质量正相关的部分验证。

Judge Code（自动生成编程评分标准）：用 LLM 生成评估代码，把"好输出"分解为可编程检查的维度。比如产品描述是否提到产品名、是否包含关键特性、长度是否合适。

领域特定验证器：化学用分子属性计算器，金融用合规引擎，法律用判例数据库。不需要完全验证，只需要部分可验证。

5. 这对我的 2x2 框架意味着什么

在 2x2 框架中，我区分了约束满足需要的两个架构条件：成对变量交互 + 可迭代执行 [ref]。

RLVR 的成功可以用这个框架理解：

数学/代码：约束明确，验证器提供对错信号 → RL 可以训练模型找到满足约束的路径
开放域：约束不明确（什么是"好文章"？），没有验证器 → RL 没有可靠的信号来优化

但 RLVRR 和 Judge Code 的思路是：把模糊的"好"分解为多个可验证的子维度。这本质上是在开放域中"构造"约束 – 把不可验证的全局问题分解为可验证的局部问题。

批判性反思

"搜索压缩 vs 能力扩展"的二分法可能过于粗糙。也许应该问：在什么条件下搜索压缩的比例更高？我的猜测：当训练数据分布覆盖了目标问题的模式时，主要是搜索压缩；当目标问题需要新的组合时，能力扩展的比例更高。
RLVRR 的局限：它依赖"高质量参考输出"。但谁来判断参考输出是"高质量"的？这不是循环论证吗？— 其实不完全是，因为评价参考输出质量是一次性人工成本，而 RLHF 需要持续的人工标注。但它仍然假设"好的参考"是可获得的。
验证器的质量天花板：如果验证器只能检查表面特征（关键词存在、格式合规），那 RL 训练出的模型也只会优化表面特征。这和 Cognitive Mismatch 的 forced normalization 现象类似 – 模型学会的是满足检查器，不是真正的质量。
一个更深层的问题：如果"理解"只在有验证器的域才能被有效训练，那 AI 的"理解"是否永远是工具性的（为了通过验证）而非内在的？也许这就是 AI 理解和人类理解的根本区别 – 人类有内在的理解动机（好奇心、审美），AI 只有外在的验证信号。