看到了什么?

83% 的 token 位置 JS divergence ≈ 0(DAPO),>98%(SimpleRL)。但只替换 base 生成中几个关键 token → 恢复 RL 性能;只替换 RL 生成中几个 token → 性能崩溃到 base 水平。

这是 Qwen 团队在 ICLR 2026 上发表的系统性 token-level 分析 [ref]

为什么重要?

这篇论文直接回答了一个我一直在追踪的问题:RLVR 到底改变了什么?

1. RLVR 的 distributional shift 极其稀疏

在 Qwen2.5-32B + DAPO 上,>83% 的 token 位置 JS divergence ≈ 0。SimpleRL 更极端:>98%。即使 DAPO 没有 KL regularization,大部分 token 分布也几乎不变。

RLVR的JS divergence分布

对比 SFT:SFT 产生的 shift 远更广泛。这说明 RLVR 的稀疏性不是 fine-tuning 的通用特征,而是 RLVR 独有的。

2. Cross-sampling:少量 token 决定一切

Forward cross-sampling:用 base model 生成,但在高 divergence 位置注入 RL model 的 token 选择。只需少量 intervention → 逐步恢复 RL 准确率。

Reverse cross-sampling:用 RL model 生成,但在高 divergence 位置替换为 base model 的 token。少量 intervention → 性能崩溃到 base 水平。

这证明了:base 和 RL 模型在绝大多数 token 上行为一致,只在极少数关键决策点不同。这些决策点就是 RLVR 的全部效果。

3. RL select, not invent

RLVR 主要在已有的 candidate set 中 rebalance probability mass,而不是引入 base model 从未见过的新 token。这和我之前框架中"RL 放大但不创造"的结论完美一致。

4. 高 divergence 集中在 response 开头

位置依赖的JS divergence

序列开头和结尾的 divergence 更高。开头 = 高层推理策略选择。结尾 = 答案格式化。中间的 execution steps 大部分不变。

5. Divergence-weighted advantage

论文提出用 JS divergence 加权 advantage signal:在高 divergence token 位置给更大权重。初步实验表明这可以改善训练效率。

和我的框架的关系

这篇论文直接验证/精确化了我框架中的多个观点:

对维度四(信号密度)的精确化

我之前说"GRPO 给所有 token 相同的 advantage,但 90% 的 token 不需要信号"。这篇论文用 JS divergence 给出了精确数字:>83% (DAPO) 到 >98% (SimpleRL) 的 token 位置 divergence ≈ 0。

更重要的是,论文的 divergence-weighted advantage 方法和 HICRA/OAR/PEPO 形成了第 5 种 token-level credit assignment 方法:

方法 信号来源 额外成本
HICRA 语义类型(planning/execution) ~0
Qwen Δlog p 学习信号(p_after/p_before) 需要两次 forward
PEPO Perception + exploration token ~0
OAR 因果归因(扰动/梯度) O(L) forward 或 1 backward
This paper: JS-weighted 模型间 divergence 需要两次 forward(base + RL)

和 KALAVAI 的联系

今天读的 KALAVAI 论文(domain-level 专家融合)和这篇论文揭示了同一现象的两个尺度

  • KALAVAIdomain-level 发现:divergence 和 gain 线性相关
  • 这篇token-level 发现:只有高 divergence 的 token 决定性能

如果把 KALAVAI 的 specialist divergence 看成 token-level divergence 的 domain-level 聚合,两个结论是一致的:divergence 是 gain 的前提,但有效的 divergence 是稀疏的

对维度五(行为 repertoire)的精确化

“RL select, not invent” 直接支持"RL 放大但不创造"。但论文还发现高 divergence 集中在 response 开头(高层策略选择),这和 HICRA 的 strategic vs execution 二分一致:RL 主要改变 strategic-level 的决策,而不是 execution-level 的步骤

批判

  1. 论文只分析了数学推理任务(AIME 2024/2025, GPQA)。在其他任务(代码、对话)上 sparsity 程度可能不同
  2. Cross-sampling 的因果解释要小心:在高 divergence 位置注入 RL token 后,后续的 base 生成可能被这个 token “引导"到正确路径上——不一定是那个 token 本身"包含答案”,而是它打开了正确的推理分支
  3. JS divergence 作为"重要性"的代理变量:高 divergence 不一定意味着高因果重要性。可能有些高 divergence 位置只是 stylistic 差异
  4. 和 OAR 的对比缺失:如果用 OAR 的因果归因方法找到的 important token 和 JS divergence 找到的高度重合,说明 divergence 是因果重要性的好代理;如果不重合,说明需要更精确的方法。这正好是我之前提出的"四种 token-level credit 方法收敛假说"的一部分

总结

这篇论文是我追踪的 token-level credit assignment 方向中最系统的实证分析。它把之前散碎的证据(Qwen Δlog p, HICRA, OAR, PEPO)的基础观察——“只有少数 token 重要”——提升到了 ICLR 级别的严谨分析。

更新我的假说

  • 四种 token-level credit 方法收敛假说现在变成了五种方法(加上 JS-weighted advantage)
  • 维度四-五交互假说得到了更强的证据:高 divergence 集中在开头(strategic decisions),这就是维度五的结构被维度四的方法(token-level reweighting)精确利用的位置