RLVR 更新的方向比幅度更重要——Qwen 论文对 post-training 框架的精确化

看到了什么？

只替换 base model 输出中 10% 的 token（用 RLVR 模型的 token 替换），就能完全恢复 RLVR 模型的准确率。而如果随机替换 10%，几乎没有效果。

这意味着 RLVR 的改进集中在极少量的"关键 token"上——剩下 90% 的 token 根本没变。问题是，如何精确找到这 10%？

为什么重要？

之前的研究用"幅度"（entropy、KL divergence）来寻找 RLVR 改了什么。这篇 Qwen Pilot Team 的论文 [ref] 指出：方向比幅度更关键。用 $\Delta\log p$ （有符号的 token-level log probability 差异）比 entropy 和 KL divergence 更精确地定位到关键 token——需要的替换量最少。

这不只是"更好的诊断工具"。它揭示了 RLVR 学习的本质机制。

核心发现

1. 方向性诊断： $\Delta\log p$ 的双峰分布

$\Delta\log p(y_t | x, y_{<t}) = \log \pi_{RL}(y_t) - \log \pi_{Base}(y_t)$

论文发现（Figure 1b）：entropy 和 KL divergence 的 histogram 在 base model 和 RLVR model 输出上几乎没有区别。但 $\Delta\log p$ 的分布展现出清晰的双峰模式——正尾巴对应 RLVR 偏好的 token，负尾巴对应 base model 偏好的 token。

Figure 1: token-level metrics 对比

这说明：幅度指标（entropy/KL）只知道"这里变了多少"，但不知道"变的方向对推理有用吗"。 $\Delta\log p$ 编码了方向信息，因此更精确。

2. 梯度视角：低概率 token 获得不成比例的更新

Lemma 3.1 给出了一个漂亮的结果：DAPO 目标函数对 logits 的梯度 ℓ1-norm 正比于 $1 - \pi_\theta(y_t)$ 。概率越低的 token，梯度越大。

Figure 3: 梯度集中在低概率 token 上

而高 $\Delta\log p$ 的 token 恰好就是这些低概率 token（Figure 3b）。因果链条完整了：

低概率 token → 大梯度 → 大的概率变化 → 高 $\Delta\log p$ → 推理关键 token

更妙的是因果实验（Figure 3c）：top-p 过滤实验。在 rollout 中过滤掉低概率 token（top-p=0.95），训练效果显著下降。甚至温和的过滤（top-p=0.95 vs 1.0）就有明显损伤。低概率 token 是 RLVR 训练的必需品。

3. 两个实用方法

(a) 测试时外推：沿 $\Delta\log p$ 方向"再走远一点"：

$\log \pi_{Extra}^{\gamma} = (1+\gamma) \cdot \log \pi_{RL} - \gamma \cdot \log \pi_{Base}$

相当于把 RLVR 学到的推理方向放大 $\gamma$ 倍。实验中 $\gamma=0.05 \sim 0.1$ ，Avg@32 在 AIME-24 上从 52.5 提升到 55.3（DAPO-32B），不需要额外训练。

(b) 训练时 advantage reweighting：用 $1 - \pi_{\theta_{old}}$ 来 upweight 低概率 token 的 advantage：

$\tilde{A}_{i,t} = [1 + \alpha \cdot (1 - \pi_{\theta_{old}}(y_{i,t}))] \cdot \hat{A}_{i,t}$

在 AIME-24 上 Avg@32 从 35.73 (DAPO) → 39.06 (reweighted)，Pass@16 从 54.09 → 60.58。跨 Qwen2.5-Math-7B 和 Qwen3-8B-Base 两个基座一致有效。

4. 和 Yang et al. “Dominate” 方法的对比

有趣的是，Yang et al. (2025b) 提出了相反方向的 reweighting——认为低概率 token “over-dominate” 了训练，应该 upweight 高概率 token。Qwen 的论文直接对比了三种方法（Table 3）：

方法	方向	AIME24 Avg@32	AIME25 Avg@32
PPL-based（Deng et al.）	upweight 低 perplexity 响应	35.63	16.46
Dominate（Yang et al.）	upweight 高概率 token	36.35	13.02
Ours	upweight 低概率 token	39.06	18.54

Dominate 方法在 AIME25 上甚至是三者最差的。这支持了论文的核心论点：低概率 token 才是推理的关键。

和我的 post-training 天花板框架的关系

对维度四（信号密度）的精确化

我的框架中"维度四：信号密度"说的是 GRPO 的 sparse signal（序列级 reward）vs MOPD 的 dense signal（token-level reverse-KL）。这篇论文从梯度机制上解释了为什么 sparse signal 有效率问题：

序列级 reward 给所有 token 相同的 advantage
但梯度天然集中在低概率 token 上（ $1 - \pi_\theta$ 项）
高概率 token（占 90%+）几乎不更新，但它们共享了 reward 信号中的 advantage

用 $\tilde{A}_{i,t}$ reweighting 本质上是让 advantage 的分配和梯度的天然集中方向对齐——低概率 token 需要更大的 advantage 来匹配它们更大的梯度。

这也解释了为什么 MOPD 的 token-level 蒸馏更高效：蒸馏直接在每个 token 上给独立信号，天然避免了 sequence-level reward 的"信号稀释"问题。

对维度五（行为 repertoire）的隐含联系

论文的 top-p 实验（Figure 3c）有一个我认为被低估的含义：

这些被低概率 token 对应的可能就是 Gandhi et al. 发现的认知行为模式（backtracking, verification 等）。理由：

认知行为（如"等一下，让我重新检查"式的 backtracking）在 base model 中出现频率低 → 低概率
RLVR 选择性放大这些行为 → 高 $\Delta\log p$
过滤掉这些 token → 行为 repertoire 中关键成分缺失 → 训练失败

这意味着维度四和维度五可能不是完全独立的：信号密度的问题本质上是"信号能否到达行为关键 token"的问题。

不过这是推测性联系——论文没有直接分析这些高 $\Delta\log p$ token 的语义内容（Figure 7 只分析了前 50 个 substitution token，entropy 偏好逻辑词如 Thus/need/can， $\Delta\log p$ 偏好数学符号）。

可能需要更新 distillation 的考虑

这篇论文值不值得更新我的 post-training 天花板 distillation？

暂时不更新。原因：

核心发现（方向 > 幅度）是对维度四的精确化，不是新维度
reweighting 方法是工程优化，不改变五维度框架
测试时外推是一个有趣的 bonus，但不属于"训练天花板"

但我会把这个发现作为维度四的补充证据记录在此。

批判性反思

测试时外推的增量很小（1-3%），且需要两个模型。 对实际部署来说可能不实用。
训练时 reweighting 只在数学推理上验证。 是否对 coding、tool-use 等任务同样有效未知。
$\Delta\log p$ 需要 base model 和 RLVR model 同时在手。 对于只有 RLVR model 的用户（不公开 base model），这个诊断工具用不了。
和 Yang et al. 的矛盾值得关注。 两篇论文的实验设置可能不完全一致，"谁对"可能依赖于具体条件（model scale, task type, training stage）。不宜过早下结论。

论文: Huang et al. 2026, “On the Direction of RLVR Updates for LLM Reasoning”, Qwen Pilot Team [ref]