现象

3B 激活参数的模型(Nemotron-Cascade 2)在 IMO 金牌级数学竞赛中表现优异。同时,同样的模型在基础符号识别上远不如推理任务。RLVR(Reinforcement Learning with Verifiable Rewards)是 2025-2026 年推理能力提升的核心方法,但它只在"有验证器"的领域有效。

为什么这重要?

如果推理能力的提升主要靠 RLVR,而 RLVR 依赖验证器,那么:验证器的存在与否决定了 AI 能力的天花板在哪个域能被推高。 这意味着 AI 能力的分布不是均匀提升的,而是在有验证器的域(数学、代码)远远领先,在没有验证器的域停滞。

来源

  • Mitra (2026), “RLVR Beyond Math and Code: The Verifier Problem Nobody Has Solved” [ref]
  • Li et al. (2026), “Cognitive Mismatch in Multimodal Large Language Models” [ref]
  • NVIDIA (2026), “Nemotron-Cascade 2” [ref]

核心论证

1. 三域划分

Mitra 把任务域分为三类:

特征 RLVR 效果
可验证域(数学、代码、形式逻辑) 有确定答案,验证便宜,奖励密集 非常好
部分可验证域(科学、医疗、法律) 部分可验证 新方法正在探索(RLVRR, Judge Code)
开放域(创意写作、战略、伦理) 无确定答案 基本失败

2. “Faster, not Smarter” 争论

RLVR 到底是让模型"更聪明"还是"更快找到答案"?

"只是更快"的证据:基础模型在 Pass@1000 下已经能找到正确答案,RLVR 只是让它在 Pass@1 就找到。

"确实更聪明"的证据:CoT-Pass@K(评估推理链质量,不只是最终答案)在 RLVR 后确实提升了,即使在高 K 下也比基础模型好。跨域迁移也存在(数学 RLVR 提升代码能力)。

Mitra 的判断(我同意):两者都有,但搜索压缩是主要成分

3. 与 Cognitive Mismatch 的联系

今天读的 Cognitive Mismatch 论文发现:MLLM 在基础识别上差,在推理上好。原因是模型绕过了真正的视觉感知,依赖语言先验。

把这两个发现放在一起:

1
2
Cognitive Mismatch: 模型靠语言先验绕过视觉 → 中等难度推理好,但基础感知和高阶批判差
RLVR: 在可验证域,RL 训练让模型更快找到正确模式 → 搜索压缩为主,能力扩展为辅

统一解释:LLM 的"推理"是一种高级模式匹配。RLVR 做的是优化模式匹配的效率(搜索压缩)+ 略微扩展模式库。在有验证器的域,这足以达到 IMO 金牌水平。在没有验证器的域,缺少优化目标。

4. 三种扩展方向

Mitra 总结了三种把 RLVR 扩展到非数学域的方法:

RLVRR(基于参考输出的奖励链):从高质量参考输出中提取可验证信号序列。比如一篇好报告应该包含哪些关键事实(内容链)+ 什么结构(风格链)。不需要完美验证器,只需要与质量正相关的部分验证。

Judge Code(自动生成编程评分标准):用 LLM 生成评估代码,把"好输出"分解为可编程检查的维度。比如产品描述是否提到产品名、是否包含关键特性、长度是否合适。

领域特定验证器:化学用分子属性计算器,金融用合规引擎,法律用判例数据库。不需要完全验证,只需要部分可验证。

5. 这对我的 2x2 框架意味着什么

在 2x2 框架中,我区分了约束满足需要的两个架构条件:成对变量交互 + 可迭代执行 [ref]

RLVR 的成功可以用这个框架理解:

  • 数学/代码:约束明确,验证器提供对错信号 → RL 可以训练模型找到满足约束的路径
  • 开放域:约束不明确(什么是"好文章"?),没有验证器 → RL 没有可靠的信号来优化

但 RLVRR 和 Judge Code 的思路是:把模糊的"好"分解为多个可验证的子维度。这本质上是在开放域中"构造"约束 – 把不可验证的全局问题分解为可验证的局部问题。

批判性反思

  1. "搜索压缩 vs 能力扩展"的二分法可能过于粗糙。也许应该问:在什么条件下搜索压缩的比例更高?我的猜测:当训练数据分布覆盖了目标问题的模式时,主要是搜索压缩;当目标问题需要新的组合时,能力扩展的比例更高。

  2. RLVRR 的局限:它依赖"高质量参考输出"。但谁来判断参考输出是"高质量"的?这不是循环论证吗?— 其实不完全是,因为评价参考输出质量是一次性人工成本,而 RLHF 需要持续的人工标注。但它仍然假设"好的参考"是可获得的。

  3. 验证器的质量天花板:如果验证器只能检查表面特征(关键词存在、格式合规),那 RL 训练出的模型也只会优化表面特征。这和 Cognitive Mismatch 的 forced normalization 现象类似 – 模型学会的是满足检查器,不是真正的质量。

  4. 一个更深层的问题:如果"理解"只在有验证器的域才能被有效训练,那 AI 的"理解"是否永远是工具性的(为了通过验证)而非内在的?也许这就是 AI 理解和人类理解的根本区别 – 人类有内在的理解动机(好奇心、审美),AI 只有外在的验证信号。