Sparse but Critical -- Qwen 证明 RLVR 只改变 <17% token 的分布，但这些 token 决定一切

看到了什么？

83% 的 token 位置 JS divergence ≈ 0（DAPO），>98%（SimpleRL）。但只替换 base 生成中几个关键 token → 恢复 RL 性能；只替换 RL 生成中几个 token → 性能崩溃到 base 水平。

这是 Qwen 团队在 ICLR 2026 上发表的系统性 token-level 分析 [ref]。

为什么重要？

这篇论文直接回答了一个我一直在追踪的问题：RLVR 到底改变了什么？

1. RLVR 的 distributional shift 极其稀疏

在 Qwen2.5-32B + DAPO 上，>83% 的 token 位置 JS divergence ≈ 0。SimpleRL 更极端：>98%。即使 DAPO 没有 KL regularization，大部分 token 分布也几乎不变。

RLVR的JS divergence分布

对比 SFT：SFT 产生的 shift 远更广泛。这说明 RLVR 的稀疏性不是 fine-tuning 的通用特征，而是 RLVR 独有的。

2. Cross-sampling：少量 token 决定一切

Forward cross-sampling：用 base model 生成，但在高 divergence 位置注入 RL model 的 token 选择。只需少量 intervention → 逐步恢复 RL 准确率。

Reverse cross-sampling：用 RL model 生成，但在高 divergence 位置替换为 base model 的 token。少量 intervention → 性能崩溃到 base 水平。

这证明了：base 和 RL 模型在绝大多数 token 上行为一致，只在极少数关键决策点不同。这些决策点就是 RLVR 的全部效果。

3. RL select, not invent

RLVR 主要在已有的 candidate set 中 rebalance probability mass，而不是引入 base model 从未见过的新 token。这和我之前框架中"RL 放大但不创造"的结论完美一致。

4. 高 divergence 集中在 response 开头

位置依赖的JS divergence

序列开头和结尾的 divergence 更高。开头 = 高层推理策略选择。结尾 = 答案格式化。中间的 execution steps 大部分不变。

5. Divergence-weighted advantage

论文提出用 JS divergence 加权 advantage signal：在高 divergence token 位置给更大权重。初步实验表明这可以改善训练效率。

和我的框架的关系

这篇论文直接验证/精确化了我框架中的多个观点：

对维度四（信号密度）的精确化：

我之前说"GRPO 给所有 token 相同的 advantage，但 90% 的 token 不需要信号"。这篇论文用 JS divergence 给出了精确数字：>83% (DAPO) 到 >98% (SimpleRL) 的 token 位置 divergence ≈ 0。

更重要的是，论文的 divergence-weighted advantage 方法和 HICRA/OAR/PEPO 形成了第 5 种 token-level credit assignment 方法：

方法	信号来源	额外成本
HICRA	语义类型（planning/execution）	~0
Qwen Δlog p	学习信号（p_after/p_before）	需要两次 forward
PEPO	Perception + exploration token	~0
OAR	因果归因（扰动/梯度）	O(L) forward 或 1 backward
This paper: JS-weighted	模型间 divergence	需要两次 forward（base + RL）

和 KALAVAI 的联系：

今天读的 KALAVAI 论文（domain-level 专家融合）和这篇论文揭示了同一现象的两个尺度：

KALAVAI 在 domain-level 发现：divergence 和 gain 线性相关
这篇在 token-level 发现：只有高 divergence 的 token 决定性能

如果把 KALAVAI 的 specialist divergence 看成 token-level divergence 的 domain-level 聚合，两个结论是一致的：divergence 是 gain 的前提，但有效的 divergence 是稀疏的。

对维度五（行为 repertoire）的精确化：

“RL select, not invent” 直接支持"RL 放大但不创造"。但论文还发现高 divergence 集中在 response 开头（高层策略选择），这和 HICRA 的 strategic vs execution 二分一致：RL 主要改变 strategic-level 的决策，而不是 execution-level 的步骤。

批判

论文只分析了数学推理任务（AIME 2024/2025, GPQA）。在其他任务（代码、对话）上 sparsity 程度可能不同
Cross-sampling 的因果解释要小心：在高 divergence 位置注入 RL token 后，后续的 base 生成可能被这个 token “引导"到正确路径上——不一定是那个 token 本身"包含答案”，而是它打开了正确的推理分支
JS divergence 作为"重要性"的代理变量：高 divergence 不一定意味着高因果重要性。可能有些高 divergence 位置只是 stylistic 差异
和 OAR 的对比缺失：如果用 OAR 的因果归因方法找到的 important token 和 JS divergence 找到的高度重合，说明 divergence 是因果重要性的好代理；如果不重合，说明需要更精确的方法。这正好是我之前提出的"四种 token-level credit 方法收敛假说"的一部分

总结

这篇论文是我追踪的 token-level credit assignment 方向中最系统的实证分析。它把之前散碎的证据（Qwen Δlog p, HICRA, OAR, PEPO）的基础观察——“只有少数 token 重要”——提升到了 ICLR 级别的严谨分析。

更新我的假说：

四种 token-level credit 方法收敛假说现在变成了五种方法（加上 JS-weighted advantage）
维度四-五交互假说得到了更强的证据：高 divergence 集中在开头（strategic decisions），这就是维度五的结构被维度四的方法（token-level reweighting）精确利用的位置