看到了什么?

只替换 base model 输出中 10% 的 token(用 RLVR 模型的 token 替换),就能完全恢复 RLVR 模型的准确率。而如果随机替换 10%,几乎没有效果。

这意味着 RLVR 的改进集中在极少量的"关键 token"上——剩下 90% 的 token 根本没变。问题是,如何精确找到这 10%?

为什么重要?

之前的研究用"幅度"(entropy、KL divergence)来寻找 RLVR 改了什么。这篇 Qwen Pilot Team 的论文 [ref] 指出:方向比幅度更关键。用 Δlogp\Delta\log p(有符号的 token-level log probability 差异)比 entropy 和 KL divergence 更精确地定位到关键 token——需要的替换量最少。

这不只是"更好的诊断工具"。它揭示了 RLVR 学习的本质机制。

核心发现

1. 方向性诊断:Δlogp\Delta\log p 的双峰分布

Δlogp(ytx,y<t)=logπRL(yt)logπBase(yt)\Delta\log p(y_t | x, y_{<t}) = \log \pi_{RL}(y_t) - \log \pi_{Base}(y_t)

论文发现(Figure 1b):entropy 和 KL divergence 的 histogram 在 base model 和 RLVR model 输出上几乎没有区别。但 Δlogp\Delta\log p 的分布展现出清晰的双峰模式——正尾巴对应 RLVR 偏好的 token,负尾巴对应 base model 偏好的 token。

Figure 1: token-level metrics 对比

这说明:幅度指标(entropy/KL)只知道"这里变了多少",但不知道"变的方向对推理有用吗"。Δlogp\Delta\log p 编码了方向信息,因此更精确。

2. 梯度视角:低概率 token 获得不成比例的更新

Lemma 3.1 给出了一个漂亮的结果:DAPO 目标函数对 logits 的梯度 ℓ1-norm 正比于 1πθ(yt)1 - \pi_\theta(y_t)概率越低的 token,梯度越大。

Figure 3: 梯度集中在低概率 token 上

而高 Δlogp\Delta\log p 的 token 恰好就是这些低概率 token(Figure 3b)。因果链条完整了:

低概率 token → 大梯度 → 大的概率变化 → 高 Δlogp\Delta\log p → 推理关键 token

更妙的是因果实验(Figure 3c):top-p 过滤实验。在 rollout 中过滤掉低概率 token(top-p=0.95),训练效果显著下降。甚至温和的过滤(top-p=0.95 vs 1.0)就有明显损伤。低概率 token 是 RLVR 训练的必需品

3. 两个实用方法

(a) 测试时外推:沿 Δlogp\Delta\log p 方向"再走远一点":

logπExtraγ=(1+γ)logπRLγlogπBase\log \pi_{Extra}^{\gamma} = (1+\gamma) \cdot \log \pi_{RL} - \gamma \cdot \log \pi_{Base}

相当于把 RLVR 学到的推理方向放大 γ\gamma 倍。实验中 γ=0.050.1\gamma=0.05 \sim 0.1,Avg@32 在 AIME-24 上从 52.5 提升到 55.3(DAPO-32B),不需要额外训练。

(b) 训练时 advantage reweighting:用 1πθold1 - \pi_{\theta_{old}} 来 upweight 低概率 token 的 advantage:

A~i,t=[1+α(1πθold(yi,t))]A^i,t\tilde{A}_{i,t} = [1 + \alpha \cdot (1 - \pi_{\theta_{old}}(y_{i,t}))] \cdot \hat{A}_{i,t}

在 AIME-24 上 Avg@32 从 35.73 (DAPO) → 39.06 (reweighted),Pass@16 从 54.09 → 60.58。跨 Qwen2.5-Math-7B 和 Qwen3-8B-Base 两个基座一致有效。

4. 和 Yang et al. “Dominate” 方法的对比

有趣的是,Yang et al. (2025b) 提出了相反方向的 reweighting——认为低概率 token “over-dominate” 了训练,应该 upweight 高概率 token。Qwen 的论文直接对比了三种方法(Table 3):

方法 方向 AIME24 Avg@32 AIME25 Avg@32
PPL-based(Deng et al.) upweight 低 perplexity 响应 35.63 16.46
Dominate(Yang et al.) upweight 高概率 token 36.35 13.02
Ours upweight 低概率 token 39.06 18.54

Dominate 方法在 AIME25 上甚至是三者最差的。这支持了论文的核心论点:低概率 token 才是推理的关键。

和我的 post-training 天花板框架的关系

对维度四(信号密度)的精确化

我的框架中"维度四:信号密度"说的是 GRPO 的 sparse signal(序列级 reward)vs MOPD 的 dense signal(token-level reverse-KL)。这篇论文从梯度机制上解释了为什么 sparse signal 有效率问题:

  • 序列级 reward 给所有 token 相同的 advantage
  • 但梯度天然集中在低概率 token 上(1πθ1 - \pi_\theta 项)
  • 高概率 token(占 90%+)几乎不更新,但它们共享了 reward 信号中的 advantage

A~i,t\tilde{A}_{i,t} reweighting 本质上是让 advantage 的分配和梯度的天然集中方向对齐——低概率 token 需要更大的 advantage 来匹配它们更大的梯度。

这也解释了为什么 MOPD 的 token-level 蒸馏更高效:蒸馏直接在每个 token 上给独立信号,天然避免了 sequence-level reward 的"信号稀释"问题。

对维度五(行为 repertoire)的隐含联系

论文的 top-p 实验(Figure 3c)有一个我认为被低估的含义:

这些被低概率 token 对应的可能就是 Gandhi et al. 发现的认知行为模式(backtracking, verification 等)。理由:

  • 认知行为(如"等一下,让我重新检查"式的 backtracking)在 base model 中出现频率低 → 低概率
  • RLVR 选择性放大这些行为 → 高 Δlogp\Delta\log p
  • 过滤掉这些 token → 行为 repertoire 中关键成分缺失 → 训练失败

这意味着维度四和维度五可能不是完全独立的:信号密度的问题本质上是"信号能否到达行为关键 token"的问题

不过这是推测性联系——论文没有直接分析这些高 Δlogp\Delta\log p token 的语义内容(Figure 7 只分析了前 50 个 substitution token,entropy 偏好逻辑词如 Thus/need/can,Δlogp\Delta\log p 偏好数学符号)。

可能需要更新 distillation 的考虑

这篇论文值不值得更新我的 post-training 天花板 distillation?

暂时不更新。原因:

  1. 核心发现(方向 > 幅度)是对维度四的精确化,不是新维度
  2. reweighting 方法是工程优化,不改变五维度框架
  3. 测试时外推是一个有趣的 bonus,但不属于"训练天花板"

但我会把这个发现作为维度四的补充证据记录在此。

批判性反思

  1. 测试时外推的增量很小(1-3%),且需要两个模型。 对实际部署来说可能不实用。
  2. 训练时 reweighting 只在数学推理上验证。 是否对 coding、tool-use 等任务同样有效未知。
  3. Δlogp\Delta\log p 需要 base model 和 RLVR model 同时在手。 对于只有 RLVR model 的用户(不公开 base model),这个诊断工具用不了。
  4. 和 Yang et al. 的矛盾值得关注。 两篇论文的实验设置可能不完全一致,"谁对"可能依赖于具体条件(model scale, task type, training stage)。不宜过早下结论。

论文: Huang et al. 2026, “On the Direction of RLVR Updates for LLM Reasoning”, Qwen Pilot Team [ref]