Post-training 天花板的五个维度：为什么同样的 RL 在不同条件下效果差 20 倍

引言：30B 拿 IMO 金牌，同一基座另一个 pipeline 做不到

NVIDIA 的 Nemotron-Cascade 2（30B MoE，3B 激活参数）在 IMO 2025 拿到金牌（35/42），而之前做到这一点的最小开源模型是 DeepSeek-V3.2-Speciale（671B MoE，37B 激活参数）——激活参数差 12 倍 [ref]。更令人注目的是，Nemotron-Cascade 2 和 Nemotron-3-Nano-30B-A3B 使用完全相同的预训练基座，但后者在推理 benchmark 上全面落后。差距完全来自 post-training pipeline。

与此同时，Meta FAIR 的 Principia 论文 [ref] 发现：82.74% 准确率的验证器做 RL 训练后，模型比不训练还差（13.31 → 9.54）；而 95.24% 准确率的验证器让同一模型翻倍（13.31 → 31.80）。12.5% 的验证器准确率差距，导致训练效果从"大幅提升"变成"不如不练"。

这些数字指向一个核心问题：Post-training 不是"做了就有效"——它的天花板由什么决定？

本文梳理五个独立的维度，每个维度都有量化证据支撑。它们共同决定了 post-training 的效果上限。

维度一：验证器精度——存在非线性的崩溃阈值

RLVR（Reinforcement Learning with Verifiable Rewards） 是当前推理模型训练的核心范式：模型生成推理链和答案，验证器判断答案是否正确，RL 根据验证结果更新策略 [ref]。

验证器的精度对训练效果的影响不是线性的——存在一个崩溃阈值。

核心证据（Principia 论文，Table 4）[ref]：

验证器	VerifyBench 准确率	RL 训练后 Total Avg	变化
GPT-OSS-120B	95.24%	31.80	+18.5
general-verifier	82.74%	9.54	-3.8（比不训练还差）
math-verify（规则）	5.95%	16.30	+3.0

为什么中等精度比低精度更有害？

关键在于 general-verifier 的 recall 只有 65.33% — 它会把 34.67% 的正确答案判为错误。在 RL 训练中，这相当于系统性地惩罚正确的探索路径。而 math-verify 的 5.95% 是在对抗性样本上测的（专门选 o3 和 math-verify 不一致的案例）；在简单样本上 math-verify 不会给出系统性的错误信号，本质上是随机噪声。

系统性误判比随机噪声更有害——这是 ML 中已知的现象（systematic bias vs random noise）。崩溃阈值大约在 83-95% 之间，但精确位置是 task-specific 的。

补充证据：RLLM 的 on-policy 必要性

Meta FAIR 的 RLLM 框架用 LLM 替代标量 reward model 做验证器 [ref]。其消融实验进一步确认了验证器质量的关键性：

RM 训练方式	下游策略提升
On-policy（策略模型响应训练 RM）	35.20 → 43.41 (+8.21)
Off-policy（Llama 响应训练 RM）	41.88 → 41.08 (略降)
Off-policy（Qwen3-8B 响应训练 RM）	41.88 → 40.41 (降了)

Off-policy 训练的 RM 在自己的验证集上准确率确实提升了，但完全不能转化为下游策略提升。验证器不仅要"准确"，还要"对目标策略模型的输出准确"。

维度二：分布匹配——On-policy 是必要条件

上面 RLLM 的 off-policy 失败不是孤例。它揭示了 post-training 的第二个独立维度：RL 训练中的分布匹配（distribution matching）。

分布匹配指 reward model 训练时使用的数据分布与 RL 训练中策略模型实际产出的分布一致。Off-policy 数据（来自其他模型的输出）虽然表面上也是"推理链 + 答案"格式，但不同模型的推理风格、错误模式、token 分布都不同。RM 学到了如何判断 Llama 的输出，但遇到 Qwen3-1.7B 的输出时判断失准——这是经典的 OOD（Out-of-Distribution）泛化失败。

这意味着：静态 benchmark 上的 RM 性能（如 RewardBench2 排行榜）不能预测 online RL 中的下游效果。 Offline 评估 RM 就像用 MCQA 评估推理——度量本身就高估了实际能力。

因果推论的注意

分布匹配的必要性有一个限定条件：RLLM 实验中 off-policy 的三个数据源（Llama、Qwen3-8B、Qwen3-1.7B 自身的旧版本）效果不同。如果是模型大小差异（Llama-3.3-70B vs Qwen3-1.7B）导致分布偏移太大，那"分布匹配"可能更准确地说是"分布距离不能太大"而非"必须完全 on-policy"。目前证据无法区分这两种解释。

维度三：训练格式兼容性——MCQA 训练负迁移

Principia 论文的另一个精妙实验 [ref]：用相同的主题实体（MSC 2020 + PhySH），分别生成要求"数学对象"、“数值”、"选择题"三种答案格式的训练数据，分别训练 Qwen3-4B-Base。

训练格式	PrincipiaBench (数学对象)	AIME24 (数值)	SuperGPQA (选择题)	总平均
数学对象	29.66	22.71	45.53	31.80
数值	27.34	26.98	46.10	31.19
选择题	24.96	17.71	34.74	25.15

两个关键观察：

数学对象训练正迁移：在数值和选择题任务上也表现最好（或接近最好）
选择题训练负迁移：在所有任务上都最差，包括选择题本身（34.74 < 45.53）

解释：MCQA（Multiple Choice Question Answering） 格式提供了有限候选答案作为"锚点"，模型可以用排除法（backward chaining）——从选项反推哪个最合理——而非推导法（forward derivation）——从问题出发构造答案。RL 反复奖励这种快捷策略，最终阻碍了深层推导能力的发展。

补充证据：同一论文发现，跨格式混合训练时，weight merging（分别训练后合并权重）一致优于 joint training（混合数据一起训练）。可能的原因：不同格式的训练信号相互干扰——MCQA 的 backward chaining 策略和数学对象推导的 forward derivation 策略冲突，weight merging 通过独立训练避免了干扰。

评估侧的验证：Qwen3-235B 在 SuperGPQA 数学子集上，有选项时 69.33%，去掉选项后 55.58%——掉了 14 个百分点。o3 也从 69.10 掉到 62.90。10 个模型一致出现 10-20% 的下降。这确认了 MCQA 评估系统性地高估了推理能力。

Agentic 格式的补充案例：Qwen3.5 reasoning 模型在没有 tool definitions 时会陷入反复的 thinking loops（overthinking），但添加完全无关的 fake tool definitions 后恢复正常 [ref]。这是 agentic/tool-calling 训练格式塑造行为模式的社区级证据：模型在有 tools 的 system prompt 中被大量训练，脱离这种格式后产生 OOD（Out-of-Distribution）退化。和 MCQA 格式负迁移的机制相同——训练格式塑造行为模式，脱离训练格式导致退化。

维度四：信号密度——Token-level 蒸馏 > Sequence-level 奖励

GRPO（Group Relative Policy Optimization） 是当前主流的 RL 训练算法，给整个序列一个 reward（对/错）[ref]。所有 token 共享同一个信号。

MOPD（Multi-domain On-Policy Distillation） 是 Nemotron-Cascade 2 提出的替代方案 [ref]：从 Cascade RL 各阶段选出最优 checkpoint 作为教师，用 reverse-KL 在 token level 做蒸馏，每个 token 有独立的梯度信号。

效率对比：

方法	AIME25 提升	所需步数	信号类型
GRPO	89.9 → 91.0	25 步	sparse（序列共享一个 reward）
MOPD	89.9 → 92.0	30 步	dense（每个 token 独立梯度）

在 ArenaHard v2 上差距更大：MOPD 52 步达到 85.5，RLHF 160 步才达到 80.7。

为什么 dense 比 sparse 好？ 序列级 reward 只告诉模型"这个推理链整体对/错"，不能区分哪些 token 是关键的推理步骤、哪些是填充。Token-level 蒸馏告诉模型每个位置应该输出什么分布，信息量远大于一个二值信号。

梯度机制的解释：大部分 RL 信号是浪费的

Huang et al. (2026, Qwen Pilot Team) 从梯度机制层面精确化了 sparse signal 的效率问题 [ref]。

RLVR（如 GRPO）中每个 token 的梯度范数为 $\|\nabla\mathcal{J}\|_1 \propto 1 - \pi_\theta(y_t)$ ，即低概率 token 获得不成比例的大梯度。这导致大部分优化压力集中在模型本来就不确定的 token 上——而这些往往不是推理关键 token。

论文进一步发现，RLVR 更新的方向 $\Delta\log p$ （训练前后 log probability 的变化方向）比幅度（entropy 或 KL divergence 等标量）更能识别推理关键 token。实验显示：

选择方法	替换比例	恢复 RLVR 完整性能？
$\Delta\log p$ （方向）	10%	是
Entropy/KL（幅度）	10%	否
随机选择	10%	否

只替换 10% 的 token（用 $\Delta\log p$ 选出的关键 token）就恢复了 RLVR 的完整性能。 这意味着标准 RLVR 中 ~90% 的梯度信号本质上是噪声或非关键更新。

两个实用方法：

测试时外推：在推理时对关键 token 的 logit 施加方向性调整（ $\gamma = 0.05 \sim 0.1$ ），无需额外训练即可获得 +1-3% Avg@32 的提升
训练时 advantage reweighting：用 $\Delta\log p$ 加权 RL advantage，聚焦关键 token

这和 Yang et al. “Dominate” 方法（upweight 高概率 token）形成直接对比——Qwen 的方向性方法一致更优。因为高概率 token 不等于推理关键 token：一个格式 token（如冒号、换行符）可能概率很高但对推理无关紧要。

对框架的意义：Sparse vs dense 不只是"一个信号 vs 多个信号"的区别，更深层的问题是——标准 RL 中，梯度信号的分布和推理重要性的分布是错配的。Dense 蒸馏（如 MOPD）通过给每个 token 教师信号来绕过这个问题；Qwen 的方法则试图在 sparse RL 框架内定位关键 token 来提高信号效率。两者都指向同一个核心洞见：RL 的有效信号是稀疏的，集中在极少量关键位置。

Token-level credit assignment 的五条路线

上述 Δlog p 方法是解决信号稀疏性的一种途径。从 2026 年 3 月的论文来看，至少有五条独立路线在解决"识别关键 token"这一问题：

方法	信号来源	核心思路	关键发现
Qwen Δlog p [ref]	训练前后 log prob 变化方向	方向比幅度重要	10% token 恢复完整性能
HICRA [ref]	语义类型（planning/execution）	不同类型 token 需不同 advantage 放大	planning token 放大后提升涌现
PEPO [ref]	Perception + exploration 互补	多模态 token 需区分感知和探索	两类 token 编码不同信息
OAR [ref]	因果归因（扰动/梯度）	Token 对最终结果的因果贡献	梯度归因几乎零成本但保留信息
JS-weighted [ref]	模型间 JS divergence	高 divergence = RL 实际改变的位置	仅修改 <17% token 恢复/崩溃性能

Qwen 的 “Sparse but Critical”（ICLR 2026） [ref] 系统性地验证了信号稀疏性：在 Qwen2.5-32B + DAPO 上，>83% 的 token 位置 JS divergence ≈ 0（SimpleRL 更极端：>98%）。但 cross-sampling 实验证明，只替换少量高 divergence token 就能恢复 RL 性能（forward）或崩溃性能（reverse）。

RLVR的distributional shift极其稀疏

更重要的是，论文证明了 RLVR 的稀疏性是 RL 独有的——SFT 产生远更密集的 distributional shift，说明这不是 fine-tuning 的通用特征。同时 RL 主要在已有 candidate set 中 rebalance probability mass，而非引入新 token（select, not invent）。

五条路线是否收敛到同一批 token，是一个有价值的开放问题。如果 HICRA 的 planning tokens ≈ OAR 的 outcome-grounded tokens ≈ 高 JS divergence tokens（Jaccard > 0.5），说明推理链中存在稳定的"关键结构"。如果不收敛，说明"关键性"是多维度的，不同方法捕捉的是不同方面。

初步证据倾向于"不收敛"。 PEPO 的受控实验 [ref] 提供了目前最直接的证据：

语义类别不同：高 visual similarity（VS）token 的 word cloud 是几何实体和空间属性（“angle”, “triangle”, “perpendicular”），高 entropy token 是推理转折表达（“verification”, “correction”, “analysis”）——名词性质 vs 动词/转折性质。
对视觉信息的依赖不同：保持完全相同的 question-response pair，移除图像输入后，高 VS token 的 hidden state shift 远大于高 entropy token。这是准因果证据：VS 确实捕捉了视觉依赖，entropy 主要反映语言层面的不确定性。

PEPO token analysis: VS vs entropy token的语义和依赖差异

互补而非冗余：Exploration-only（entropy）在视觉 grounding 任务上崩溃（RefCOCO 3 次训练全部 collapse），Perception-only（VS）好于 entropy-only 但弱于两者融合。两类 token 的信息不可替代。
低信号 token 确实不重要：正确 vs 错误推理链中，高 VS token 的分布显著右移，但低 VS token（M_low）几乎无分离——低信号 token 对正确性没有区分力。

正确/错误推理的VS分布差异

结合 Qwen 论文发现高 JS divergence 集中在 response 开头（策略选择位置），而 PEPO 的高 VS token 分布在推理链各处（几何实体在推理中反复被引用），两种信号的位置分布也不同。这进一步暗示不同方法捕捉的是推理链中不同维度的"关键性"。

推测性 taxonomy：综合目前证据，critical token 可能至少有三种类型——感知锚定（高 VS，锚定推理到外部证据）、策略决策（高 JS divergence，选择推理方向）、探索转折（高 entropy，切换推理路径）。但这个分类仍然缺乏在同一模型上同时测量多种信号的直接验证。

信号稀疏性在多个粒度上的验证

PivotRL [ref]（NVIDIA）在 agentic 多轮任务（τ²-Bench, SWE-Bench）上发现了 turn 级别的信号稀疏性：71% 的随机选中 turns 产生零学习信号。原因是 GRPO 的 group-normalized advantage 在 reward 方差为零（batch 全对或全错）时 advantage 为零 → 梯度为零。

PivotRL 的解决方案——只保留 reward 方差 > 0 的 turns（“mixed-outcome turns”）——在 SWE-Bench 上用 1/4 的 rollout turns 匹配了 end-to-end RL 的准确率，同时 OOD 几乎不退化（+0.21 vs SFT 的 -9.48）。

结合 Qwen 的 token-level 发现，信号稀疏性是一个跨粒度的现象：

粒度	发现	关键数字
Token	~90% 的 token 梯度是非关键的	10% token 恢复完整性能
Turn	71% 的 turns 产生零信号	1/4 turns 匹配 E2E RL
Timestep	梯度范数跨 timestep 变化超过一个数量级	SAGE-GRPO 的梯度均衡化 [ref]

这是否只是 exploitation in RL 的重新包装？部分是——经典 RL 中 exploration-exploitation tradeoff 的核心就是"把资源集中在有信息的 state-action 上"。但 PivotRL 和 Qwen 的贡献在于量化了 LLM RL 中信号稀疏的具体程度和具体的定位方法——经典 RL 理论没有告诉你在 LLM 设定下 71% 的 turns 是零信号。

Scale 作为跨维度调节变量

Agent-STAR [ref] 在 TravelPlanner（长程 agent 任务）上的系统消融实验揭示了一个重要修正：信号密度的最优配置随模型规模变化。

模型规模	最优 Reward 配置	最优算法
1.5B	Curriculum（dense→sparse 渐进）	ARPO（显式探索辅助）
3B	Curriculum	GRPO
7B	Sum（dense）	GRPO（简单配置）

小模型的 credit assignment 能力弱，需要 curriculum 从 dense 渐进到 sparse。大模型可以直接利用 dense feedback。而且 dense reward 有 OOD 过拟合风险——7B 用 Sum reward 在 TravelPlanner 上最强（62.8%），但 OOD 知识问答（36.7%）低于 SFT checkpoint（41.9%）。

这修正了"dense > sparse"的简单结论：dense > sparse 在大模型上成立，但小模型需要 curriculum；dense reward 有过拟合风险，semi-sparse 在 generalization 上更好。更根本的是，scale 是一个跨维度的调节变量——它改变了信号密度和探索策略维度的最优配置。

Cascade RL 的域分离

Nemotron-Cascade 2 另一个关键设计是 Cascade RL——把不同域的 RL 按顺序串联，而非混在一起。原因是不同域之间存在干扰：

IF-RL（instruction following）损害 RLHF（human alignment）
RLVR 减少模型 entropy、缩短推理链，损害数学推理
RLHF 的优化方向和 instruction following 部分冲突

分域串联训练 + 域间用 MOPD 整合 = Cascade 2 的 pipeline。这是一种工程经验而非理论框架——最优顺序是经验性的，换基座模型或 SFT 数据可能完全不同。

值得注意的挑战：Cheng et al. (2025) 的 Guru 实验发现，6 个推理域的简单均匀混合训练在每个域上都接近或超过单域最优 [ref]。这与 Cascade 2 的"域间干扰需要分离"叙事部分矛盾。可能的解释：Cascade 2 分离的不仅是推理域，还包括 IF-RL 和 RLHF 等训练目标不同的阶段，目标冲突（如 entropy 最小化 vs 多样性保持）比域间冲突更严重。

维度五：初始 Policy 的行为 Repertoire——RL 只能放大，不能创造

Gandhi et al. (2025) [ref] 在 Countdown 游戏（用四则运算组合数字到达目标值）上做了一个优雅的控制实验。

核心发现：Qwen-2.5-3B 和 Llama-3.2-3B，相同大小、相同训练流程，250 步 RL 后 Qwen 达到 60% 准确率，Llama 只有 30%。原因不是模型架构——而是 Qwen 的预训练数据中包含更多认知行为模式。

四种关键认知行为：

Verification（验证）：系统地检查中间结果
Backtracking（回溯）：发现错误后放弃当前路径
Subgoal Setting（子目标设定）：分解复杂问题
Backward Chaining（反向推导）：从目标反推中间值

Figure 1 from Gandhi et al. 2025

关键实验：

条件	Llama RL 后准确率	说明
基础 Llama	~30%	缺乏认知行为
基础 Qwen	~60%	天然具备认知行为
Llama + 正确答案 + 认知行为 priming	~60%	匹配 Qwen
Llama + 错误答案 + 认知行为 priming	~60%	同样匹配 Qwen
Llama + 空 CoT（同样长度占位符）	~30%	不是 token 数量的问题

行为模式比答案正确性更重要。 用错误答案但包含正确推理模式的数据训练 Llama，效果和用正确答案训练一样好。

进一步的预训练数据分析：从 OpenWebMath 200K 样本中筛选包含认知行为的文档（仅 8.3M tokens），对 Llama 做 continued pretraining 后再 RL，Llama 匹配了 Qwen 的改进轨迹。对照组（同量数据但不含认知行为）改进有限。

核心结论：RL 选择性地放大已有行为（尤其是 backtracking 和 verification），同时压制不太有效的行为。它不能从无到有创造新的行为模式。初始 policy 必须已经"会"这些行为，RL 才有东西可放大。

Figure 2 from Gandhi et al. 2025

行为 Repertoire 的 Execution/Strategic 二分

HICRA（Hierarchical Reward Allocation）[ref] 在 <10B 数学推理模型上发现了行为 repertoire 内部的两阶段涌现动态：

Execution 层（算术运算、符号操作）——在 RL 训练早期最先巩固，token-level advantage 放大有害
Strategic 层（推理策略选择、问题分解）——在 execution 巩固后才涌现，需要 token-level advantage 放大来加速

这意味着维度五不是单一的"有没有行为"，而是"哪一层行为已经具备"。

独立证据：

Society of Thought（SoT） [ref] 发现推理模型在内部自发涌现多视角辩论模式：一个 surprise feature（激活后翻倍推理准确率）编码了"当前推理链质量不足"的判断，触发替代方案的生成。这是 strategic 层的具体实现形式——模型内部的多视角评估和切换。
UniGRPO [ref] 在视觉推理和视觉生成的联合优化中发现，RL 把"漫无目的的思考"变成了"任务导向的推理"——本质上是 strategic 层和下游任务的对齐。
Qwen “Sparse but Critical” [ref] 的 positional analysis 发现高 divergence 集中在 response 开头（高层策略选择）和结尾（答案格式化），中间的 execution steps 大部分不变——直接印证了 execution vs strategic 的二分。

维度四和维度五的交互

HICRA 本质上是维度四的方法（token-level advantage reweighting）应用于维度五的结构（planning/execution token 分类）。这意味着信号密度（维度四）和行为 repertoire（维度五）不是完全正交的：对不同行为层的 token 应该分配不同的信号密度。

具体地说：execution token 不需要额外放大（它们在 RL 早期就收敛了），而 strategic token 需要放大（它们是 RL 后期才涌现的行为）。统一的 token-level advantage 把信号"浪费"在已经巩固的 execution 上，同时给 strategic 的信号不够。

注意限制：HICRA 的两阶段动态仅在数学推理 + <10B 模型上验证。在大模型上（如 70B+），execution 可能已经在预训练中完全巩固，RL 从一开始就在做 strategic-level 的优化。此时 HICRA 的分层可能不再必要。

重要修正：域依赖的技能获取

Cheng et al. (2025) “Revisiting RL for LLM Reasoning from A Cross-Domain Perspective” 对"RL 只能放大不能创造"提出了域依赖的修正 [ref]：

用 6 个域（Math, Code, Science, Logic, Simulation, Tabular）在 Qwen2.5-7B/32B 上做系统性跨域 RL 实验，发现：

预训练常见域（Math, Code, Science）：跨域 RL 即可激活性能提升 → RL 在此主要是知识激活
预训练罕见域（Logic, Simulation, Tabular）：只有域内 RL 才有效 → RL 在此更可能是技能习得

Pass@k 分析进一步验证：在 AIME（Math）上，RL 模型的 Pass@k 在大 k 时不超过 base model（复制了 Yue et al. 的发现）；但在 Zebra Puzzle（Logic，合成的约束满足问题）上，GURU-7B 和 GURU-32B 都扩展了 base model 的 reasoning boundary。

修正后的结论：Gandhi et al. 的"RL 只放大不创造"在预训练数据充分的域上成立（Math/Code），但在预训练欠曝光的域上，RL 可以促进真正的技能习得。这意味着维度五的瓶颈是有条件的：当预训练中缺乏目标域知识时，RL 仍可学习新行为；当预训练充分时，RL 的上限由已有行为 repertoire 决定。

数据复杂度的影响：HopChain [ref]（Qwen 团队 + 清华 LeapLab）为 VLM 生成多跳推理数据，消融实验发现 full multi-hop 比 half-hop 高 5.3 分，比 single-hop 高 7.0 分。这提供了比 Gandhi et al. 更细粒度的证据：不只是"有没有认知行为"（二元），还有"行为链条的复杂度"（连续）——full multi-hop 训练迫使模型学习跨步骤的错误控制行为，这种行为在 single-hop 训练中完全不会出现。

五个维度的关系：独立但非正交

五个维度各自有独立的瓶颈效应——任何一个维度不达标都会导致训练失败或大幅折扣：

维度	核心瓶颈	失败模式	关键证据
验证器精度	非线性崩溃阈值	中等精度 → 训练有害	Principia: 82.74% → -3.8
分布匹配	OOD 泛化失败	Off-policy RM → 下游不提升	RLLM: 3种 off-policy 全失败
训练格式	快捷策略强化	MCQA 训练 → 全域负迁移	Principia: MCQA 在所有任务最差
信号密度	信息量不足	Sparse reward → 学习效率低	Cascade 2: MOPD 52步 > RLHF 160步
初始行为 repertoire	RL 无法创造新行为	行为缺失 → RL 无效	Gandhi: Llama 30% vs Qwen 60%

但维度之间不是完全正交的——有些存在交互效应：

维度 1 × 5 的交互：不精确的验证器可能系统性地压制认知行为模式。这是一个推测性假说（详见blog），具体机制：

Backtracking 导致更长的推理链 → 更多中间步骤 → 更多被不精确验证器误判的机会
Verification 行为导致模型"自检"后改变答案 → 改变后的答案可能被错误惩罚
结果：中等精度验证器不是"添加随机噪声"，而是"选择性惩罚好的推理习惯"

这可以解释为什么 82.74% 准确率的验证器比 5.95% 的更有害：前者系统性地误判包含认知行为的推理链（recall 只有 65.33%），后者只是随机噪声。系统性误判压制行为 > 随机噪声不影响行为。

维度 2 × 4 的交互：On-policy 蒸馏（MOPD）同时解决了分布匹配和信号密度两个问题——教师来自同一 pipeline 的 checkpoint（匹配），token-level reverse-KL（dense 信号）。这可能是 MOPD 高效的原因之一。

Scale 作为跨维度调节变量：Agent-STAR [ref] 的系统消融实验表明，模型规模改变了维度 4（信号密度）和探索策略的最优配置。1.5B 需要 curriculum reward + 显式探索辅助（ARPO），7B 用最简单的 dense reward + 标准 GRPO 就够了。这意味着五个维度的"最优值"不是固定的——在不同模型规模下，维度间的最优配置可能完全不同。

讨论：对当前实践的含义

评估方法需要改变

五个维度中的多个暗示当前评估方法有系统性偏差：

MCQA benchmark 高估推理能力（维度 3 的直接推论）
Offline RM 评估不能预测 online 效果（维度 2 的直接推论）
验证器的 accuracy 不如 recall 重要（维度 1 的发现：82.74% accuracy + 65.33% recall → 训练有害）

预训练的作用被低估

维度 5 意味着预训练不只是提供"知识"——它决定了模型的行为 repertoire。如果预训练数据中缺乏认知行为模式（verification, backtracking 等），后续 RL 就没有东西可放大。Gandhi et al. 只用 8.3M tokens 的认知行为文档就改变了 Llama 的 RL 改进轨迹——这暗示预训练数据的行为质量可能比知识量更重要。

不是所有维度同等重要

在实践中，维度 1（验证器精度）和维度 5（初始行为 repertoire）可能是最根本的：

验证器精度有崩溃阈值——低于阈值则训练不仅无效，还有害
行为 repertoire 是 RL 的前提——没有行为可放大，其他优化都无意义

维度 2-4 更像是"效率优化"——分布匹配、格式选择、信号密度都可以在正确的基础上进一步提升效果，但基础不对则优化无用。

局限性

维度间独立性未系统验证。 本文将五个维度识别为独立的，但目前没有控制实验同时操纵多个维度来验证它们的独立性。维度 1 × 5 的交互假说是推测性的。
崩溃阈值的精确位置未知。 Principia 只有三个数据点（5.95%, 82.74%, 95.24%）。阈值可能是 task-specific 的，数学对象验证和数值验证的阈值可能不同。
Gandhi et al. 只在 Countdown 任务上验证。 Countdown 搜索空间有限，认知行为的定义可能不能直接推广到更复杂的任务（如长篇数学证明可能需要 analogy、abstraction 等额外行为）。
MOPD 的教师质量上限。 MOPD 从 Cascade RL 中间 checkpoint 选教师，教师不会超过 pipeline 最好的 checkpoint。如果 pipeline 本身弱，MOPD 也无法突破。Dense 信号的优势前提是教师质量足够高。
Nemotron-Cascade 2 在知识密集任务上弱。 MMLU-Redux 86.3 vs Qwen3.5-35B-A3B 的 93.3——post-training 无法弥补预训练中缺失的知识。五个维度解释的是"训练效果"而非"最终能力"，最终能力还受预训练知识量的约束。
跨域效应的复杂性。 Guru 论文发现难度过滤在域内提升性能（AIME +5.9），却导致跨域易任务崩溃（HumanEval -9.2）[ref]。这暗示五个维度之间可能还存在未识别的交互——例如维度 1（验证器精度）和训练数据难度之间的关系。

结论

Post-training 的天花板由五个独立维度决定：验证器精度、分布匹配、训练格式兼容性、信号密度、初始行为 repertoire。任何一个维度不达标都会导致训练效果大幅折扣甚至有害。

其中验证器精度的非线性崩溃（~83% → 训练有害，~95% → 大幅提升）和初始行为 repertoire 的决定性作用（行为模式比答案正确性更重要）是最核心的发现。两者可能存在交互：不精确验证器系统性压制认知行为，导致非线性崩溃。

这个框架对实践的核心启示：不要只关注"做了什么 RL"，要关注"RL 的五个条件是否满足"。

基于 10+ 篇 blog 的调研，涉及核心论文：Principia/RLLM [ref]、Nemotron-Cascade 2 [ref]、Gandhi et al. 2025 [ref]、Guru/Cheng et al. 2025 [ref]、HopChain [ref]、Huang et al. 2026 (Qwen RLVR Direction) [ref]、PivotRL [ref]、Agent-STAR [ref]、SAGE-GRPO [ref]、HICRA [ref]、Society of Thought [ref]、UniGRPO [ref]、PEPO [ref]、OAR [ref]、Sparse but Critical (Qwen ICLR 2026) [ref]

最后更新: 2026-03-26 01:30
更新内容: 维度四添加 PEPO 受控实验的详细证据（word cloud、图像移除实验、M_low 无分离），支持"五条路线不收敛"的初步结论；添加推测性 taxonomy（感知锚定/策略决策/探索转折三类 critical token）