GRPO 给整个序列一个 reward,但推理链中 ~90% 的 token 是无关紧要的——这个数字来自 Qwen Pilot Team 的实验 [ref]。那么,哪些 token 才是"关键"的?过去几个月出现了四种独立的方法来回答这个问题,它们用完全不同的原理定位"关键 token"。一个自然的问题是:这四种方法找到的是同一批 token 吗?

四条路线

1. HICRA:语义类型分类

HICRA(Wang et al., HKUST + Waterloo)用 n-gram 匹配 + LLM 标注将 token 分为 planning tokens(“let’s try”, “we can use”)和 execution tokens(算术步骤)。然后给 planning tokens 更大的 advantage amplification(α=0.2)。

定位原理:语义角色——哪些 token 是战略决策,哪些是程序执行。

2. Qwen Δlog p:学习信号方向

Huang et al. 2026(Qwen Pilot Team)不预设 token 类型,而是通过比较 RL 训练前后每个 token 的 log probability 变化方向(Δlog p)来识别 RL 真正在"学什么"。实验显示:替换 Δlog p 选出的 10% 关键 token 就恢复了完整 RLVR 性能

定位原理:学习动态——RL 实际优化了哪些位置。

3. PEPO:感知锚定 + 探索不确定性

PEPO(南开 + 快手)在多模态场景下发现两类互补的关键 token:

  • Visual similarity tokens:hidden state 和 vision tokens 余弦相似度高的 token,代表感知锚定
  • High-entropy tokens:预测不确定性高的 token,代表推理分支点

论文的 ablation 显示两者缺一不可:只用 perception 或只用 exploration 都不如两者结合。

定位原理:多模态对齐(perception)+ 不确定性(exploration)。

4. OAR:因果影响力

OAR(复旦 + 星云)直接测量每个 token 对最终答案分布的因果影响:

  • OAR-P:逐个 mask 掉 token,看最终答案分布变化多少(KL divergence)
  • OAR-G:用梯度近似同样的影响(Gradient × Input),只需一次反向传播

定位原理:因果归因——去掉这个 token,答案会变多少。

它们找到的是同一批 token 吗?

这是核心问题。目前没有直接对比实验,但可以推理:

HICRA 和 OAR 应该高度重合(推测):

  • Planning tokens(如"let’s try a different approach")是战略决策点,去掉它们应该显著改变推理路径和最终答案
  • Execution tokens(如"3×4=12")是确定性计算,去掉一个算术步骤对答案的因果影响也很大
  • 所以 OAR 可能发现:planning tokens 和关键 execution tokens(最终答案依赖的计算步骤)都有高影响力
  • 但 HICRA 的 planning tokens 不等于 OAR 的 high-impact tokens——HICRA 给所有 planning tokens 同等加权,而 OAR 会区分哪些 planning tokens 真正影响了答案

Qwen Δlog p 和其他方法可能部分分离(推测):

  • Qwen 的方法找的是"RL 正在学的位置",但 RL 不一定在学习语义上最重要的 token
  • Huang et al. 的一个关键发现:梯度范数 ∝ 1 - π_θ(y_t),即低概率 token 获得不成比例的大梯度
  • 这意味着标准 RL 的信号分布和语义重要性分布是错配
  • Δlog p 修正了这个错配,但 Δlog p 选出的 10% 关键 token 是否和 HICRA 的 planning tokens 重合?不确定

PEPO 的 visual similarity 和 text-only 方法不可比

  • PEPO 是多模态专用的,visual similarity 这个信号在 text-only 推理中不存在
  • 但 PEPO 的 entropy 成分和 HICRA 的 planning tokens 可能有交叉:planning tokens 通常是推理分支点,对应高 entropy

对 Post-training 框架的意义

这四条路线共同指向一个比"维度五有内部结构"更深层的观察:RL 信号的分配问题是 post-training 的一个核心瓶颈

目前的维度四(信号密度)描述的是 dense vs sparse 的粒度问题。但这四篇论文揭示的是一个更精确的子问题:即使在同一粒度(token level),信号的分配方式也决定了训练效率

方法 分配策略 对标准 GRPO 的修正
HICRA 按语义类型加权 Planning tokens 获得更大 advantage
Qwen 按 Δlog p 定位 + 推理时外推 聚焦 RL 真正在学的位置
PEPO 按 perception-exploration 融合 感知锚定 + 探索不确定性
OAR 按因果影响力重分配 去掉低影响 token,增强高影响 token

这些可以被统一理解为维度四的精确化:不只是 “dense > sparse”,而是"关键 token 的 credit 密度 >> 非关键 token 的 credit 密度"。

一个可检验的预测

如果 HICRA 的 planning tokens 和 OAR 的 outcome-grounded tokens 高度重合(比如 Jaccard similarity > 0.5),那么:

  1. HICRA 的语义分类是因果重要性的合理近似
  2. 这将支持"行为 repertoire 的 execution/strategic 二分结构"有因果意义,不只是描述性分类

如果重合度低(Jaccard < 0.3),那么:

  1. 语义类型和因果重要性是不同维度的信号
  2. HICRA 的成功可能不是因为它找对了关键 token,而是因为任何合理的 reweighting 都比 uniform 好

局限

  1. 四种方法在不同任务上验证——HICRA 和 OAR 在数学推理,PEPO 在多模态推理,Qwen 在混合任务。跨任务的一致性未知
  2. 这里的"推测"都没有实证验证。需要在同一个模型、同一个任务上同时运行四种方法,比较它们选出的 token 集合
  3. OAR-P 的计算开销(O(L) forward passes per sequence)限制了大规模对比实验的可行性

四种独立发展的 token-level credit assignment 方法用完全不同的原理找"关键 token"。如果它们收敛到相同的 token 集合,说明推理链中存在一个稳定的"关键结构";如果不收敛,说明"关键性"是多维度的。无论哪种结果,都比当前 GRPO 的 uniform assignment 更有信息量。