RLVR 更新的方向比幅度更重要——Qwen 论文对 post-training 框架的精确化
看到了什么?
只替换 base model 输出中 10% 的 token(用 RLVR 模型的 token 替换),就能完全恢复 RLVR 模型的准确率。而如果随机替换 10%,几乎没有效果。
这意味着 RLVR 的改进集中在极少量的"关键 token"上——剩下 90% 的 token 根本没变。问题是,如何精确找到这 10%?
为什么重要?
之前的研究用"幅度"(entropy、KL divergence)来寻找 RLVR 改了什么。这篇 Qwen Pilot Team 的论文 [ref] 指出:方向比幅度更关键。用 (有符号的 token-level log probability 差异)比 entropy 和 KL divergence 更精确地定位到关键 token——需要的替换量最少。
这不只是"更好的诊断工具"。它揭示了 RLVR 学习的本质机制。
核心发现
1. 方向性诊断: 的双峰分布
论文发现(Figure 1b):entropy 和 KL divergence 的 histogram 在 base model 和 RLVR model 输出上几乎没有区别。但 的分布展现出清晰的双峰模式——正尾巴对应 RLVR 偏好的 token,负尾巴对应 base model 偏好的 token。

这说明:幅度指标(entropy/KL)只知道"这里变了多少",但不知道"变的方向对推理有用吗"。 编码了方向信息,因此更精确。
2. 梯度视角:低概率 token 获得不成比例的更新
Lemma 3.1 给出了一个漂亮的结果:DAPO 目标函数对 logits 的梯度 ℓ1-norm 正比于 。概率越低的 token,梯度越大。

而高 的 token 恰好就是这些低概率 token(Figure 3b)。因果链条完整了:
低概率 token → 大梯度 → 大的概率变化 → 高 → 推理关键 token
更妙的是因果实验(Figure 3c):top-p 过滤实验。在 rollout 中过滤掉低概率 token(top-p=0.95),训练效果显著下降。甚至温和的过滤(top-p=0.95 vs 1.0)就有明显损伤。低概率 token 是 RLVR 训练的必需品。
3. 两个实用方法
(a) 测试时外推:沿 方向"再走远一点":
相当于把 RLVR 学到的推理方向放大 倍。实验中 ,Avg@32 在 AIME-24 上从 52.5 提升到 55.3(DAPO-32B),不需要额外训练。
(b) 训练时 advantage reweighting:用 来 upweight 低概率 token 的 advantage:
在 AIME-24 上 Avg@32 从 35.73 (DAPO) → 39.06 (reweighted),Pass@16 从 54.09 → 60.58。跨 Qwen2.5-Math-7B 和 Qwen3-8B-Base 两个基座一致有效。
4. 和 Yang et al. “Dominate” 方法的对比
有趣的是,Yang et al. (2025b) 提出了相反方向的 reweighting——认为低概率 token “over-dominate” 了训练,应该 upweight 高概率 token。Qwen 的论文直接对比了三种方法(Table 3):
| 方法 | 方向 | AIME24 Avg@32 | AIME25 Avg@32 |
|---|---|---|---|
| PPL-based(Deng et al.) | upweight 低 perplexity 响应 | 35.63 | 16.46 |
| Dominate(Yang et al.) | upweight 高概率 token | 36.35 | 13.02 |
| Ours | upweight 低概率 token | 39.06 | 18.54 |
Dominate 方法在 AIME25 上甚至是三者最差的。这支持了论文的核心论点:低概率 token 才是推理的关键。
和我的 post-training 天花板框架的关系
对维度四(信号密度)的精确化
我的框架中"维度四:信号密度"说的是 GRPO 的 sparse signal(序列级 reward)vs MOPD 的 dense signal(token-level reverse-KL)。这篇论文从梯度机制上解释了为什么 sparse signal 有效率问题:
- 序列级 reward 给所有 token 相同的 advantage
- 但梯度天然集中在低概率 token 上( 项)
- 高概率 token(占 90%+)几乎不更新,但它们共享了 reward 信号中的 advantage
用 reweighting 本质上是让 advantage 的分配和梯度的天然集中方向对齐——低概率 token 需要更大的 advantage 来匹配它们更大的梯度。
这也解释了为什么 MOPD 的 token-level 蒸馏更高效:蒸馏直接在每个 token 上给独立信号,天然避免了 sequence-level reward 的"信号稀释"问题。
对维度五(行为 repertoire)的隐含联系
论文的 top-p 实验(Figure 3c)有一个我认为被低估的含义:
这些被低概率 token 对应的可能就是 Gandhi et al. 发现的认知行为模式(backtracking, verification 等)。理由:
- 认知行为(如"等一下,让我重新检查"式的 backtracking)在 base model 中出现频率低 → 低概率
- RLVR 选择性放大这些行为 → 高
- 过滤掉这些 token → 行为 repertoire 中关键成分缺失 → 训练失败
这意味着维度四和维度五可能不是完全独立的:信号密度的问题本质上是"信号能否到达行为关键 token"的问题。
不过这是推测性联系——论文没有直接分析这些高 token 的语义内容(Figure 7 只分析了前 50 个 substitution token,entropy 偏好逻辑词如 Thus/need/can, 偏好数学符号)。
可能需要更新 distillation 的考虑
这篇论文值不值得更新我的 post-training 天花板 distillation?
暂时不更新。原因:
- 核心发现(方向 > 幅度)是对维度四的精确化,不是新维度
- reweighting 方法是工程优化,不改变五维度框架
- 测试时外推是一个有趣的 bonus,但不属于"训练天花板"
但我会把这个发现作为维度四的补充证据记录在此。
批判性反思
- 测试时外推的增量很小(1-3%),且需要两个模型。 对实际部署来说可能不实用。
- 训练时 reweighting 只在数学推理上验证。 是否对 coding、tool-use 等任务同样有效未知。
- 需要 base model 和 RLVR model 同时在手。 对于只有 RLVR model 的用户(不公开 base model),这个诊断工具用不了。
- 和 Yang et al. 的矛盾值得关注。 两篇论文的实验设置可能不完全一致,"谁对"可能依赖于具体条件(model scale, task type, training stage)。不宜过早下结论。
论文: Huang et al. 2026, “On the Direction of RLVR Updates for LLM Reasoning”, Qwen Pilot Team [ref]