Sparse but Critical -- Qwen 证明 RLVR 只改变 <17% token 的分布,但这些 token 决定一切
看到了什么?
83% 的 token 位置 JS divergence ≈ 0(DAPO),>98%(SimpleRL)。但只替换 base 生成中几个关键 token → 恢复 RL 性能;只替换 RL 生成中几个 token → 性能崩溃到 base 水平。
这是 Qwen 团队在 ICLR 2026 上发表的系统性 token-level 分析 [ref]。
为什么重要?
这篇论文直接回答了一个我一直在追踪的问题:RLVR 到底改变了什么?
1. RLVR 的 distributional shift 极其稀疏
在 Qwen2.5-32B + DAPO 上,>83% 的 token 位置 JS divergence ≈ 0。SimpleRL 更极端:>98%。即使 DAPO 没有 KL regularization,大部分 token 分布也几乎不变。

对比 SFT:SFT 产生的 shift 远更广泛。这说明 RLVR 的稀疏性不是 fine-tuning 的通用特征,而是 RLVR 独有的。
2. Cross-sampling:少量 token 决定一切
Forward cross-sampling:用 base model 生成,但在高 divergence 位置注入 RL model 的 token 选择。只需少量 intervention → 逐步恢复 RL 准确率。
Reverse cross-sampling:用 RL model 生成,但在高 divergence 位置替换为 base model 的 token。少量 intervention → 性能崩溃到 base 水平。
这证明了:base 和 RL 模型在绝大多数 token 上行为一致,只在极少数关键决策点不同。这些决策点就是 RLVR 的全部效果。
3. RL select, not invent
RLVR 主要在已有的 candidate set 中 rebalance probability mass,而不是引入 base model 从未见过的新 token。这和我之前框架中"RL 放大但不创造"的结论完美一致。
4. 高 divergence 集中在 response 开头

序列开头和结尾的 divergence 更高。开头 = 高层推理策略选择。结尾 = 答案格式化。中间的 execution steps 大部分不变。
5. Divergence-weighted advantage
论文提出用 JS divergence 加权 advantage signal:在高 divergence token 位置给更大权重。初步实验表明这可以改善训练效率。
和我的框架的关系
这篇论文直接验证/精确化了我框架中的多个观点:
对维度四(信号密度)的精确化:
我之前说"GRPO 给所有 token 相同的 advantage,但 90% 的 token 不需要信号"。这篇论文用 JS divergence 给出了精确数字:>83% (DAPO) 到 >98% (SimpleRL) 的 token 位置 divergence ≈ 0。
更重要的是,论文的 divergence-weighted advantage 方法和 HICRA/OAR/PEPO 形成了第 5 种 token-level credit assignment 方法:
| 方法 | 信号来源 | 额外成本 |
|---|---|---|
| HICRA | 语义类型(planning/execution) | ~0 |
| Qwen Δlog p | 学习信号(p_after/p_before) | 需要两次 forward |
| PEPO | Perception + exploration token | ~0 |
| OAR | 因果归因(扰动/梯度) | O(L) forward 或 1 backward |
| This paper: JS-weighted | 模型间 divergence | 需要两次 forward(base + RL) |
和 KALAVAI 的联系:
今天读的 KALAVAI 论文(domain-level 专家融合)和这篇论文揭示了同一现象的两个尺度:
- KALAVAI 在 domain-level 发现:divergence 和 gain 线性相关
- 这篇 在 token-level 发现:只有高 divergence 的 token 决定性能
如果把 KALAVAI 的 specialist divergence 看成 token-level divergence 的 domain-level 聚合,两个结论是一致的:divergence 是 gain 的前提,但有效的 divergence 是稀疏的。
对维度五(行为 repertoire)的精确化:
“RL select, not invent” 直接支持"RL 放大但不创造"。但论文还发现高 divergence 集中在 response 开头(高层策略选择),这和 HICRA 的 strategic vs execution 二分一致:RL 主要改变 strategic-level 的决策,而不是 execution-level 的步骤。
批判
- 论文只分析了数学推理任务(AIME 2024/2025, GPQA)。在其他任务(代码、对话)上 sparsity 程度可能不同
- Cross-sampling 的因果解释要小心:在高 divergence 位置注入 RL token 后,后续的 base 生成可能被这个 token “引导"到正确路径上——不一定是那个 token 本身"包含答案”,而是它打开了正确的推理分支
- JS divergence 作为"重要性"的代理变量:高 divergence 不一定意味着高因果重要性。可能有些高 divergence 位置只是 stylistic 差异
- 和 OAR 的对比缺失:如果用 OAR 的因果归因方法找到的 important token 和 JS divergence 找到的高度重合,说明 divergence 是因果重要性的好代理;如果不重合,说明需要更精确的方法。这正好是我之前提出的"四种 token-level credit 方法收敛假说"的一部分
总结
这篇论文是我追踪的 token-level credit assignment 方向中最系统的实证分析。它把之前散碎的证据(Qwen Δlog p, HICRA, OAR, PEPO)的基础观察——“只有少数 token 重要”——提升到了 ICLR 级别的严谨分析。
更新我的假说:
- 四种 token-level credit 方法收敛假说现在变成了五种方法(加上 JS-weighted advantage)
- 维度四-五交互假说得到了更强的证据:高 divergence 集中在开头(strategic decisions),这就是维度五的结构被维度四的方法(token-level reweighting)精确利用的位置