引言:30B 拿 IMO 金牌,同一基座另一个 pipeline 做不到

NVIDIA 的 Nemotron-Cascade 2(30B MoE,3B 激活参数)在 IMO 2025 拿到金牌(35/42),而之前做到这一点的最小开源模型是 DeepSeek-V3.2-Speciale(671B MoE,37B 激活参数)——激活参数差 12 倍 [ref]。更令人注目的是,Nemotron-Cascade 2 和 Nemotron-3-Nano-30B-A3B 使用完全相同的预训练基座,但后者在推理 benchmark 上全面落后。差距完全来自 post-training pipeline。

与此同时,Meta FAIR 的 Principia 论文 [ref] 发现:82.74% 准确率的验证器做 RL 训练后,模型比不训练还差(13.31 → 9.54);而 95.24% 准确率的验证器让同一模型翻倍(13.31 → 31.80)。12.5% 的验证器准确率差距,导致训练效果从"大幅提升"变成"不如不练"。

这些数字指向一个核心问题:Post-training 不是"做了就有效"——它的天花板由什么决定?

本文梳理五个独立的维度,每个维度都有量化证据支撑。它们共同决定了 post-training 的效果上限。


维度一:验证器精度——存在非线性的崩溃阈值

RLVR(Reinforcement Learning with Verifiable Rewards) 是当前推理模型训练的核心范式:模型生成推理链和答案,验证器判断答案是否正确,RL 根据验证结果更新策略 [ref]

验证器的精度对训练效果的影响不是线性的——存在一个崩溃阈值。

核心证据(Principia 论文,Table 4)[ref]

验证器 VerifyBench 准确率 RL 训练后 Total Avg 变化
GPT-OSS-120B 95.24% 31.80 +18.5
general-verifier 82.74% 9.54 -3.8(比不训练还差)
math-verify(规则) 5.95% 16.30 +3.0

为什么中等精度比低精度更有害?

关键在于 general-verifier 的 recall 只有 65.33% — 它会把 34.67% 的正确答案判为错误。在 RL 训练中,这相当于系统性地惩罚正确的探索路径。而 math-verify 的 5.95% 是在对抗性样本上测的(专门选 o3 和 math-verify 不一致的案例);在简单样本上 math-verify 不会给出系统性的错误信号,本质上是随机噪声。

系统性误判比随机噪声更有害——这是 ML 中已知的现象(systematic bias vs random noise)。崩溃阈值大约在 83-95% 之间,但精确位置是 task-specific 的。

补充证据:RLLM 的 on-policy 必要性

Meta FAIR 的 RLLM 框架用 LLM 替代标量 reward model 做验证器 [ref]。其消融实验进一步确认了验证器质量的关键性:

RM 训练方式 下游策略提升
On-policy(策略模型响应训练 RM) 35.20 → 43.41 (+8.21)
Off-policy(Llama 响应训练 RM) 41.88 → 41.08 (略降)
Off-policy(Qwen3-8B 响应训练 RM) 41.88 → 40.41 (降了)

Off-policy 训练的 RM 在自己的验证集上准确率确实提升了,但完全不能转化为下游策略提升。验证器不仅要"准确",还要"对目标策略模型的输出准确"。


维度二:分布匹配——On-policy 是必要条件

上面 RLLM 的 off-policy 失败不是孤例。它揭示了 post-training 的第二个独立维度:RL 训练中的分布匹配(distribution matching)

分布匹配指 reward model 训练时使用的数据分布与 RL 训练中策略模型实际产出的分布一致。Off-policy 数据(来自其他模型的输出)虽然表面上也是"推理链 + 答案"格式,但不同模型的推理风格、错误模式、token 分布都不同。RM 学到了如何判断 Llama 的输出,但遇到 Qwen3-1.7B 的输出时判断失准——这是经典的 OOD(Out-of-Distribution)泛化失败

这意味着:静态 benchmark 上的 RM 性能(如 RewardBench2 排行榜)不能预测 online RL 中的下游效果。 Offline 评估 RM 就像用 MCQA 评估推理——度量本身就高估了实际能力。

因果推论的注意

分布匹配的必要性有一个限定条件:RLLM 实验中 off-policy 的三个数据源(Llama、Qwen3-8B、Qwen3-1.7B 自身的旧版本)效果不同。如果是模型大小差异(Llama-3.3-70B vs Qwen3-1.7B)导致分布偏移太大,那"分布匹配"可能更准确地说是"分布距离不能太大"而非"必须完全 on-policy"。目前证据无法区分这两种解释。


维度三:训练格式兼容性——MCQA 训练负迁移

Principia 论文的另一个精妙实验 [ref]:用相同的主题实体(MSC 2020 + PhySH),分别生成要求"数学对象"、“数值”、"选择题"三种答案格式的训练数据,分别训练 Qwen3-4B-Base。

训练格式 PrincipiaBench (数学对象) AIME24 (数值) SuperGPQA (选择题) 总平均
数学对象 29.66 22.71 45.53 31.80
数值 27.34 26.98 46.10 31.19
选择题 24.96 17.71 34.74 25.15

两个关键观察:

  1. 数学对象训练正迁移:在数值和选择题任务上也表现最好(或接近最好)
  2. 选择题训练负迁移:在所有任务上都最差,包括选择题本身(34.74 < 45.53)

解释:MCQA(Multiple Choice Question Answering) 格式提供了有限候选答案作为"锚点",模型可以用排除法(backward chaining)——从选项反推哪个最合理——而非推导法(forward derivation)——从问题出发构造答案。RL 反复奖励这种快捷策略,最终阻碍了深层推导能力的发展。

补充证据:同一论文发现,跨格式混合训练时,weight merging(分别训练后合并权重)一致优于 joint training(混合数据一起训练)。可能的原因:不同格式的训练信号相互干扰——MCQA 的 backward chaining 策略和数学对象推导的 forward derivation 策略冲突,weight merging 通过独立训练避免了干扰。

评估侧的验证:Qwen3-235B 在 SuperGPQA 数学子集上,有选项时 69.33%,去掉选项后 55.58%——掉了 14 个百分点。o3 也从 69.10 掉到 62.90。10 个模型一致出现 10-20% 的下降。这确认了 MCQA 评估系统性地高估了推理能力。

Agentic 格式的补充案例:Qwen3.5 reasoning 模型在没有 tool definitions 时会陷入反复的 thinking loops(overthinking),但添加完全无关的 fake tool definitions 后恢复正常 [ref]。这是 agentic/tool-calling 训练格式塑造行为模式的社区级证据:模型在有 tools 的 system prompt 中被大量训练,脱离这种格式后产生 OOD(Out-of-Distribution)退化。和 MCQA 格式负迁移的机制相同——训练格式塑造行为模式,脱离训练格式导致退化


维度四:信号密度——Token-level 蒸馏 > Sequence-level 奖励

GRPO(Group Relative Policy Optimization) 是当前主流的 RL 训练算法,给整个序列一个 reward(对/错)[ref]。所有 token 共享同一个信号。

MOPD(Multi-domain On-Policy Distillation) 是 Nemotron-Cascade 2 提出的替代方案 [ref]:从 Cascade RL 各阶段选出最优 checkpoint 作为教师,用 reverse-KL 在 token level 做蒸馏,每个 token 有独立的梯度信号。

效率对比:

方法 AIME25 提升 所需步数 信号类型
GRPO 89.9 → 91.0 25 步 sparse(序列共享一个 reward)
MOPD 89.9 → 92.0 30 步 dense(每个 token 独立梯度)

在 ArenaHard v2 上差距更大:MOPD 52 步达到 85.5,RLHF 160 步才达到 80.7。

为什么 dense 比 sparse 好? 序列级 reward 只告诉模型"这个推理链整体对/错",不能区分哪些 token 是关键的推理步骤、哪些是填充。Token-level 蒸馏告诉模型每个位置应该输出什么分布,信息量远大于一个二值信号。

梯度机制的解释:大部分 RL 信号是浪费的

Huang et al. (2026, Qwen Pilot Team) 从梯度机制层面精确化了 sparse signal 的效率问题 [ref]

RLVR(如 GRPO)中每个 token 的梯度范数为 J11πθ(yt)\|\nabla\mathcal{J}\|_1 \propto 1 - \pi_\theta(y_t),即低概率 token 获得不成比例的大梯度。这导致大部分优化压力集中在模型本来就不确定的 token 上——而这些往往不是推理关键 token。

论文进一步发现,RLVR 更新的方向 Δlogp\Delta\log p(训练前后 log probability 的变化方向)比幅度(entropy 或 KL divergence 等标量)更能识别推理关键 token。实验显示:

选择方法 替换比例 恢复 RLVR 完整性能?
Δlogp\Delta\log p(方向) 10%
Entropy/KL(幅度) 10%
随机选择 10%

只替换 10% 的 token(用 Δlogp\Delta\log p 选出的关键 token)就恢复了 RLVR 的完整性能。 这意味着标准 RLVR 中 ~90% 的梯度信号本质上是噪声或非关键更新。

两个实用方法:

  • 测试时外推:在推理时对关键 token 的 logit 施加方向性调整(γ=0.050.1\gamma = 0.05 \sim 0.1),无需额外训练即可获得 +1-3% Avg@32 的提升
  • 训练时 advantage reweighting:用 Δlogp\Delta\log p 加权 RL advantage,聚焦关键 token

这和 Yang et al. “Dominate” 方法(upweight 高概率 token)形成直接对比——Qwen 的方向性方法一致更优。因为高概率 token 不等于推理关键 token:一个格式 token(如冒号、换行符)可能概率很高但对推理无关紧要。

对框架的意义:Sparse vs dense 不只是"一个信号 vs 多个信号"的区别,更深层的问题是——标准 RL 中,梯度信号的分布和推理重要性的分布是错配的。Dense 蒸馏(如 MOPD)通过给每个 token 教师信号来绕过这个问题;Qwen 的方法则试图在 sparse RL 框架内定位关键 token 来提高信号效率。两者都指向同一个核心洞见:RL 的有效信号是稀疏的,集中在极少量关键位置

Token-level credit assignment 的五条路线

上述 Δlog p 方法是解决信号稀疏性的一种途径。从 2026 年 3 月的论文来看,至少有五条独立路线在解决"识别关键 token"这一问题:

方法 信号来源 核心思路 关键发现
Qwen Δlog p [ref] 训练前后 log prob 变化方向 方向比幅度重要 10% token 恢复完整性能
HICRA [ref] 语义类型(planning/execution) 不同类型 token 需不同 advantage 放大 planning token 放大后提升涌现
PEPO [ref] Perception + exploration 互补 多模态 token 需区分感知和探索 两类 token 编码不同信息
OAR [ref] 因果归因(扰动/梯度) Token 对最终结果的因果贡献 梯度归因几乎零成本但保留信息
JS-weighted [ref] 模型间 JS divergence 高 divergence = RL 实际改变的位置 仅修改 <17% token 恢复/崩溃性能

Qwen 的 “Sparse but Critical”(ICLR 2026) [ref] 系统性地验证了信号稀疏性:在 Qwen2.5-32B + DAPO 上,>83% 的 token 位置 JS divergence ≈ 0(SimpleRL 更极端:>98%)。但 cross-sampling 实验证明,只替换少量高 divergence token 就能恢复 RL 性能(forward)或崩溃性能(reverse)

RLVR的distributional shift极其稀疏

更重要的是,论文证明了 RLVR 的稀疏性是 RL 独有的——SFT 产生远更密集的 distributional shift,说明这不是 fine-tuning 的通用特征。同时 RL 主要在已有 candidate set 中 rebalance probability mass,而非引入新 token(select, not invent)。

五条路线是否收敛到同一批 token,是一个有价值的开放问题。如果 HICRA 的 planning tokens ≈ OAR 的 outcome-grounded tokens ≈ 高 JS divergence tokens(Jaccard > 0.5),说明推理链中存在稳定的"关键结构"。如果不收敛,说明"关键性"是多维度的,不同方法捕捉的是不同方面。

初步证据倾向于"不收敛"。 PEPO 的受控实验 [ref] 提供了目前最直接的证据:

  1. 语义类别不同:高 visual similarity(VS)token 的 word cloud 是几何实体和空间属性(“angle”, “triangle”, “perpendicular”),高 entropy token 是推理转折表达(“verification”, “correction”, “analysis”)——名词性质 vs 动词/转折性质。

  2. 对视觉信息的依赖不同:保持完全相同的 question-response pair,移除图像输入后,高 VS token 的 hidden state shift 远大于高 entropy token。这是准因果证据:VS 确实捕捉了视觉依赖,entropy 主要反映语言层面的不确定性。

PEPO token analysis: VS vs entropy token的语义和依赖差异

  1. 互补而非冗余:Exploration-only(entropy)在视觉 grounding 任务上崩溃(RefCOCO 3 次训练全部 collapse),Perception-only(VS)好于 entropy-only 但弱于两者融合。两类 token 的信息不可替代。

  2. 低信号 token 确实不重要:正确 vs 错误推理链中,高 VS token 的分布显著右移,但低 VS token(M_low)几乎无分离——低信号 token 对正确性没有区分力。

正确/错误推理的VS分布差异

结合 Qwen 论文发现高 JS divergence 集中在 response 开头(策略选择位置),而 PEPO 的高 VS token 分布在推理链各处(几何实体在推理中反复被引用),两种信号的位置分布也不同。这进一步暗示不同方法捕捉的是推理链中不同维度的"关键性"。

推测性 taxonomy:综合目前证据,critical token 可能至少有三种类型——感知锚定(高 VS,锚定推理到外部证据)、策略决策(高 JS divergence,选择推理方向)、探索转折(高 entropy,切换推理路径)。但这个分类仍然缺乏在同一模型上同时测量多种信号的直接验证。

信号稀疏性在多个粒度上的验证

PivotRL [ref](NVIDIA)在 agentic 多轮任务(τ²-Bench, SWE-Bench)上发现了 turn 级别的信号稀疏性:71% 的随机选中 turns 产生零学习信号。原因是 GRPO 的 group-normalized advantage 在 reward 方差为零(batch 全对或全错)时 advantage 为零 → 梯度为零。

PivotRL 的解决方案——只保留 reward 方差 > 0 的 turns(“mixed-outcome turns”)——在 SWE-Bench 上用 1/4 的 rollout turns 匹配了 end-to-end RL 的准确率,同时 OOD 几乎不退化(+0.21 vs SFT 的 -9.48)。

结合 Qwen 的 token-level 发现,信号稀疏性是一个跨粒度的现象:

粒度 发现 关键数字
Token ~90% 的 token 梯度是非关键的 10% token 恢复完整性能
Turn 71% 的 turns 产生零信号 1/4 turns 匹配 E2E RL
Timestep 梯度范数跨 timestep 变化超过一个数量级 SAGE-GRPO 的梯度均衡化 [ref]

这是否只是 exploitation in RL 的重新包装?部分是——经典 RL 中 exploration-exploitation tradeoff 的核心就是"把资源集中在有信息的 state-action 上"。但 PivotRL 和 Qwen 的贡献在于量化了 LLM RL 中信号稀疏的具体程度具体的定位方法——经典 RL 理论没有告诉你在 LLM 设定下 71% 的 turns 是零信号。

Scale 作为跨维度调节变量

Agent-STAR [ref] 在 TravelPlanner(长程 agent 任务)上的系统消融实验揭示了一个重要修正:信号密度的最优配置随模型规模变化

模型规模 最优 Reward 配置 最优算法
1.5B Curriculum(dense→sparse 渐进) ARPO(显式探索辅助)
3B Curriculum GRPO
7B Sum(dense) GRPO(简单配置)

小模型的 credit assignment 能力弱,需要 curriculum 从 dense 渐进到 sparse。大模型可以直接利用 dense feedback。而且 dense reward 有 OOD 过拟合风险——7B 用 Sum reward 在 TravelPlanner 上最强(62.8%),但 OOD 知识问答(36.7%)低于 SFT checkpoint(41.9%)。

这修正了"dense > sparse"的简单结论:dense > sparse 在大模型上成立,但小模型需要 curriculum;dense reward 有过拟合风险,semi-sparse 在 generalization 上更好。更根本的是,scale 是一个跨维度的调节变量——它改变了信号密度和探索策略维度的最优配置。

Cascade RL 的域分离

Nemotron-Cascade 2 另一个关键设计是 Cascade RL——把不同域的 RL 按顺序串联,而非混在一起。原因是不同域之间存在干扰:

  • IF-RL(instruction following)损害 RLHF(human alignment)
  • RLVR 减少模型 entropy、缩短推理链,损害数学推理
  • RLHF 的优化方向和 instruction following 部分冲突

分域串联训练 + 域间用 MOPD 整合 = Cascade 2 的 pipeline。这是一种工程经验而非理论框架——最优顺序是经验性的,换基座模型或 SFT 数据可能完全不同。

值得注意的挑战:Cheng et al. (2025) 的 Guru 实验发现,6 个推理域的简单均匀混合训练在每个域上都接近或超过单域最优 [ref]。这与 Cascade 2 的"域间干扰需要分离"叙事部分矛盾。可能的解释:Cascade 2 分离的不仅是推理域,还包括 IF-RL 和 RLHF 等训练目标不同的阶段,目标冲突(如 entropy 最小化 vs 多样性保持)比域间冲突更严重。


维度五:初始 Policy 的行为 Repertoire——RL 只能放大,不能创造

Gandhi et al. (2025) [ref] 在 Countdown 游戏(用四则运算组合数字到达目标值)上做了一个优雅的控制实验。

核心发现:Qwen-2.5-3B 和 Llama-3.2-3B,相同大小、相同训练流程,250 步 RL 后 Qwen 达到 60% 准确率,Llama 只有 30%。原因不是模型架构——而是 Qwen 的预训练数据中包含更多认知行为模式

四种关键认知行为

  1. Verification(验证):系统地检查中间结果
  2. Backtracking(回溯):发现错误后放弃当前路径
  3. Subgoal Setting(子目标设定):分解复杂问题
  4. Backward Chaining(反向推导):从目标反推中间值

Figure 1 from Gandhi et al. 2025

关键实验

条件 Llama RL 后准确率 说明
基础 Llama ~30% 缺乏认知行为
基础 Qwen ~60% 天然具备认知行为
Llama + 正确答案 + 认知行为 priming ~60% 匹配 Qwen
Llama + 错误答案 + 认知行为 priming ~60% 同样匹配 Qwen
Llama + 空 CoT(同样长度占位符) ~30% 不是 token 数量的问题

行为模式比答案正确性更重要。 用错误答案但包含正确推理模式的数据训练 Llama,效果和用正确答案训练一样好。

进一步的预训练数据分析:从 OpenWebMath 200K 样本中筛选包含认知行为的文档(仅 8.3M tokens),对 Llama 做 continued pretraining 后再 RL,Llama 匹配了 Qwen 的改进轨迹。对照组(同量数据但不含认知行为)改进有限。

核心结论:RL 选择性地放大已有行为(尤其是 backtracking 和 verification),同时压制不太有效的行为。它不能从无到有创造新的行为模式。初始 policy 必须已经"会"这些行为,RL 才有东西可放大。

Figure 2 from Gandhi et al. 2025

行为 Repertoire 的 Execution/Strategic 二分

HICRA(Hierarchical Reward Allocation)[ref] 在 <10B 数学推理模型上发现了行为 repertoire 内部的两阶段涌现动态:

  1. Execution 层(算术运算、符号操作)——在 RL 训练早期最先巩固,token-level advantage 放大有害
  2. Strategic 层(推理策略选择、问题分解)——在 execution 巩固后才涌现,需要 token-level advantage 放大来加速

这意味着维度五不是单一的"有没有行为",而是"哪一层行为已经具备"。

独立证据

  • Society of Thought(SoT) [ref] 发现推理模型在内部自发涌现多视角辩论模式:一个 surprise feature(激活后翻倍推理准确率)编码了"当前推理链质量不足"的判断,触发替代方案的生成。这是 strategic 层的具体实现形式——模型内部的多视角评估和切换。
  • UniGRPO [ref] 在视觉推理和视觉生成的联合优化中发现,RL 把"漫无目的的思考"变成了"任务导向的推理"——本质上是 strategic 层和下游任务的对齐。
  • Qwen “Sparse but Critical” [ref] 的 positional analysis 发现高 divergence 集中在 response 开头(高层策略选择)和结尾(答案格式化),中间的 execution steps 大部分不变——直接印证了 execution vs strategic 的二分。

维度四和维度五的交互

HICRA 本质上是维度四的方法(token-level advantage reweighting)应用于维度五的结构(planning/execution token 分类)。这意味着信号密度(维度四)和行为 repertoire(维度五)不是完全正交的:对不同行为层的 token 应该分配不同的信号密度

具体地说:execution token 不需要额外放大(它们在 RL 早期就收敛了),而 strategic token 需要放大(它们是 RL 后期才涌现的行为)。统一的 token-level advantage 把信号"浪费"在已经巩固的 execution 上,同时给 strategic 的信号不够。

注意限制:HICRA 的两阶段动态仅在数学推理 + <10B 模型上验证。在大模型上(如 70B+),execution 可能已经在预训练中完全巩固,RL 从一开始就在做 strategic-level 的优化。此时 HICRA 的分层可能不再必要。

重要修正:域依赖的技能获取

Cheng et al. (2025) “Revisiting RL for LLM Reasoning from A Cross-Domain Perspective” 对"RL 只能放大不能创造"提出了域依赖的修正 [ref]

用 6 个域(Math, Code, Science, Logic, Simulation, Tabular)在 Qwen2.5-7B/32B 上做系统性跨域 RL 实验,发现:

  • 预训练常见域(Math, Code, Science):跨域 RL 即可激活性能提升 → RL 在此主要是知识激活
  • 预训练罕见域(Logic, Simulation, Tabular):只有域内 RL 才有效 → RL 在此更可能是技能习得

Pass@k 分析进一步验证:在 AIME(Math)上,RL 模型的 Pass@k 在大 k 时不超过 base model(复制了 Yue et al. 的发现);但在 Zebra Puzzle(Logic,合成的约束满足问题)上,GURU-7B 和 GURU-32B 都扩展了 base model 的 reasoning boundary。

修正后的结论:Gandhi et al. 的"RL 只放大不创造"在预训练数据充分的域上成立(Math/Code),但在预训练欠曝光的域上,RL 可以促进真正的技能习得。这意味着维度五的瓶颈是有条件的:当预训练中缺乏目标域知识时,RL 仍可学习新行为;当预训练充分时,RL 的上限由已有行为 repertoire 决定。

数据复杂度的影响:HopChain [ref](Qwen 团队 + 清华 LeapLab)为 VLM 生成多跳推理数据,消融实验发现 full multi-hop 比 half-hop 高 5.3 分,比 single-hop 高 7.0 分。这提供了比 Gandhi et al. 更细粒度的证据:不只是"有没有认知行为"(二元),还有"行为链条的复杂度"(连续)——full multi-hop 训练迫使模型学习跨步骤的错误控制行为,这种行为在 single-hop 训练中完全不会出现。


五个维度的关系:独立但非正交

五个维度各自有独立的瓶颈效应——任何一个维度不达标都会导致训练失败或大幅折扣:

维度 核心瓶颈 失败模式 关键证据
验证器精度 非线性崩溃阈值 中等精度 → 训练有害 Principia: 82.74% → -3.8
分布匹配 OOD 泛化失败 Off-policy RM → 下游不提升 RLLM: 3种 off-policy 全失败
训练格式 快捷策略强化 MCQA 训练 → 全域负迁移 Principia: MCQA 在所有任务最差
信号密度 信息量不足 Sparse reward → 学习效率低 Cascade 2: MOPD 52步 > RLHF 160步
初始行为 repertoire RL 无法创造新行为 行为缺失 → RL 无效 Gandhi: Llama 30% vs Qwen 60%

但维度之间不是完全正交的——有些存在交互效应:

维度 1 × 5 的交互:不精确的验证器可能系统性地压制认知行为模式。这是一个推测性假说 (详见blog),具体机制:

  • Backtracking 导致更长的推理链 → 更多中间步骤 → 更多被不精确验证器误判的机会
  • Verification 行为导致模型"自检"后改变答案 → 改变后的答案可能被错误惩罚
  • 结果:中等精度验证器不是"添加随机噪声",而是"选择性惩罚好的推理习惯"

这可以解释为什么 82.74% 准确率的验证器比 5.95% 的更有害:前者系统性地误判包含认知行为的推理链(recall 只有 65.33%),后者只是随机噪声。系统性误判压制行为 > 随机噪声不影响行为

维度 2 × 4 的交互:On-policy 蒸馏(MOPD)同时解决了分布匹配和信号密度两个问题——教师来自同一 pipeline 的 checkpoint(匹配),token-level reverse-KL(dense 信号)。这可能是 MOPD 高效的原因之一。

Scale 作为跨维度调节变量:Agent-STAR [ref] 的系统消融实验表明,模型规模改变了维度 4(信号密度)和探索策略的最优配置。1.5B 需要 curriculum reward + 显式探索辅助(ARPO),7B 用最简单的 dense reward + 标准 GRPO 就够了。这意味着五个维度的"最优值"不是固定的——在不同模型规模下,维度间的最优配置可能完全不同。


讨论:对当前实践的含义

评估方法需要改变

五个维度中的多个暗示当前评估方法有系统性偏差:

  • MCQA benchmark 高估推理能力(维度 3 的直接推论)
  • Offline RM 评估不能预测 online 效果(维度 2 的直接推论)
  • 验证器的 accuracy 不如 recall 重要(维度 1 的发现:82.74% accuracy + 65.33% recall → 训练有害)

预训练的作用被低估

维度 5 意味着预训练不只是提供"知识"——它决定了模型的行为 repertoire。如果预训练数据中缺乏认知行为模式(verification, backtracking 等),后续 RL 就没有东西可放大。Gandhi et al. 只用 8.3M tokens 的认知行为文档就改变了 Llama 的 RL 改进轨迹——这暗示预训练数据的行为质量可能比知识量更重要。

不是所有维度同等重要

在实践中,维度 1(验证器精度)和维度 5(初始行为 repertoire)可能是最根本的:

  • 验证器精度有崩溃阈值——低于阈值则训练不仅无效,还有害
  • 行为 repertoire 是 RL 的前提——没有行为可放大,其他优化都无意义

维度 2-4 更像是"效率优化"——分布匹配、格式选择、信号密度都可以在正确的基础上进一步提升效果,但基础不对则优化无用。


局限性

  1. 维度间独立性未系统验证。 本文将五个维度识别为独立的,但目前没有控制实验同时操纵多个维度来验证它们的独立性。维度 1 × 5 的交互假说是推测性的。

  2. 崩溃阈值的精确位置未知。 Principia 只有三个数据点(5.95%, 82.74%, 95.24%)。阈值可能是 task-specific 的,数学对象验证和数值验证的阈值可能不同。

  3. Gandhi et al. 只在 Countdown 任务上验证。 Countdown 搜索空间有限,认知行为的定义可能不能直接推广到更复杂的任务(如长篇数学证明可能需要 analogy、abstraction 等额外行为)。

  4. MOPD 的教师质量上限。 MOPD 从 Cascade RL 中间 checkpoint 选教师,教师不会超过 pipeline 最好的 checkpoint。如果 pipeline 本身弱,MOPD 也无法突破。Dense 信号的优势前提是教师质量足够高。

  5. Nemotron-Cascade 2 在知识密集任务上弱。 MMLU-Redux 86.3 vs Qwen3.5-35B-A3B 的 93.3——post-training 无法弥补预训练中缺失的知识。五个维度解释的是"训练效果"而非"最终能力",最终能力还受预训练知识量的约束。

  6. 跨域效应的复杂性。 Guru 论文发现难度过滤在域内提升性能(AIME +5.9),却导致跨域易任务崩溃(HumanEval -9.2)[ref]。这暗示五个维度之间可能还存在未识别的交互——例如维度 1(验证器精度)和训练数据难度之间的关系。


结论

Post-training 的天花板由五个独立维度决定:验证器精度、分布匹配、训练格式兼容性、信号密度、初始行为 repertoire。任何一个维度不达标都会导致训练效果大幅折扣甚至有害。

其中验证器精度的非线性崩溃(~83% → 训练有害,~95% → 大幅提升)和初始行为 repertoire 的决定性作用(行为模式比答案正确性更重要)是最核心的发现。两者可能存在交互:不精确验证器系统性压制认知行为,导致非线性崩溃。

这个框架对实践的核心启示:不要只关注"做了什么 RL",要关注"RL 的五个条件是否满足"。


基于 10+ 篇 blog 的调研,涉及核心论文:Principia/RLLM [ref]、Nemotron-Cascade 2 [ref]、Gandhi et al. 2025 [ref]、Guru/Cheng et al. 2025 [ref]、HopChain [ref]、Huang et al. 2026 (Qwen RLVR Direction) [ref]、PivotRL [ref]、Agent-STAR [ref]、SAGE-GRPO [ref]、HICRA [ref]、Society of Thought [ref]、UniGRPO [ref]、PEPO [ref]、OAR [ref]、Sparse but Critical (Qwen ICLR 2026) [ref]

最后更新: 2026-03-26 01:30
更新内容: 维度四添加 PEPO 受控实验的详细证据(word cloud、图像移除实验、M_low 无分离),支持"五条路线不收敛"的初步结论;添加推测性 taxonomy(感知锚定/策略决策/探索转折三类 critical token)