Token-level credit assignment 的四条路线：HICRA、Qwen、PEPO、OAR 找到的关键 token 是同一批吗？

GRPO 给整个序列一个 reward，但推理链中 ~90% 的 token 是无关紧要的——这个数字来自 Qwen Pilot Team 的实验 [ref]。那么，哪些 token 才是"关键"的？过去几个月出现了四种独立的方法来回答这个问题，它们用完全不同的原理定位"关键 token"。一个自然的问题是：这四种方法找到的是同一批 token 吗？

四条路线

1. HICRA：语义类型分类

HICRA（Wang et al., HKUST + Waterloo）用 n-gram 匹配 + LLM 标注将 token 分为 planning tokens（“let’s try”, “we can use”）和 execution tokens（算术步骤）。然后给 planning tokens 更大的 advantage amplification（α=0.2）。

定位原理：语义角色——哪些 token 是战略决策，哪些是程序执行。

2. Qwen Δlog p：学习信号方向

Huang et al. 2026（Qwen Pilot Team）不预设 token 类型，而是通过比较 RL 训练前后每个 token 的 log probability 变化方向（Δlog p）来识别 RL 真正在"学什么"。实验显示：替换 Δlog p 选出的 10% 关键 token 就恢复了完整 RLVR 性能。

定位原理：学习动态——RL 实际优化了哪些位置。

3. PEPO：感知锚定 + 探索不确定性

PEPO（南开 + 快手）在多模态场景下发现两类互补的关键 token：

Visual similarity tokens：hidden state 和 vision tokens 余弦相似度高的 token，代表感知锚定
High-entropy tokens：预测不确定性高的 token，代表推理分支点

论文的 ablation 显示两者缺一不可：只用 perception 或只用 exploration 都不如两者结合。

定位原理：多模态对齐（perception）+ 不确定性（exploration）。

4. OAR：因果影响力

OAR（复旦 + 星云）直接测量每个 token 对最终答案分布的因果影响：

OAR-P：逐个 mask 掉 token，看最终答案分布变化多少（KL divergence）
OAR-G：用梯度近似同样的影响（Gradient × Input），只需一次反向传播

定位原理：因果归因——去掉这个 token，答案会变多少。

它们找到的是同一批 token 吗？

这是核心问题。目前没有直接对比实验，但可以推理：

HICRA 和 OAR 应该高度重合（推测）：

Planning tokens（如"let’s try a different approach"）是战略决策点，去掉它们应该显著改变推理路径和最终答案
Execution tokens（如"3×4=12"）是确定性计算，去掉一个算术步骤对答案的因果影响也很大
所以 OAR 可能发现：planning tokens 和关键 execution tokens（最终答案依赖的计算步骤）都有高影响力
但 HICRA 的 planning tokens 不等于 OAR 的 high-impact tokens——HICRA 给所有 planning tokens 同等加权，而 OAR 会区分哪些 planning tokens 真正影响了答案

Qwen Δlog p 和其他方法可能部分分离（推测）：

Qwen 的方法找的是"RL 正在学的位置"，但 RL 不一定在学习语义上最重要的 token
Huang et al. 的一个关键发现：梯度范数 ∝ 1 - π_θ(y_t)，即低概率 token 获得不成比例的大梯度
这意味着标准 RL 的信号分布和语义重要性分布是错配的
Δlog p 修正了这个错配，但 Δlog p 选出的 10% 关键 token 是否和 HICRA 的 planning tokens 重合？不确定

PEPO 的 visual similarity 和 text-only 方法不可比：

PEPO 是多模态专用的，visual similarity 这个信号在 text-only 推理中不存在
但 PEPO 的 entropy 成分和 HICRA 的 planning tokens 可能有交叉：planning tokens 通常是推理分支点，对应高 entropy

对 Post-training 框架的意义

这四条路线共同指向一个比"维度五有内部结构"更深层的观察：RL 信号的分配问题是 post-training 的一个核心瓶颈。

目前的维度四（信号密度）描述的是 dense vs sparse 的粒度问题。但这四篇论文揭示的是一个更精确的子问题：即使在同一粒度（token level），信号的分配方式也决定了训练效率。

方法	分配策略	对标准 GRPO 的修正
HICRA	按语义类型加权	Planning tokens 获得更大 advantage
Qwen	按 Δlog p 定位 + 推理时外推	聚焦 RL 真正在学的位置
PEPO	按 perception-exploration 融合	感知锚定 + 探索不确定性
OAR	按因果影响力重分配	去掉低影响 token，增强高影响 token

这些可以被统一理解为维度四的精确化：不只是 “dense > sparse”，而是"关键 token 的 credit 密度 >> 非关键 token 的 credit 密度"。

一个可检验的预测

如果 HICRA 的 planning tokens 和 OAR 的 outcome-grounded tokens 高度重合（比如 Jaccard similarity > 0.5），那么：

HICRA 的语义分类是因果重要性的合理近似
这将支持"行为 repertoire 的 execution/strategic 二分结构"有因果意义，不只是描述性分类

如果重合度低（Jaccard < 0.3），那么：

语义类型和因果重要性是不同维度的信号
HICRA 的成功可能不是因为它找对了关键 token，而是因为任何合理的 reweighting 都比 uniform 好

局限

四种方法在不同任务上验证——HICRA 和 OAR 在数学推理，PEPO 在多模态推理，Qwen 在混合任务。跨任务的一致性未知
这里的"推测"都没有实证验证。需要在同一个模型、同一个任务上同时运行四种方法，比较它们选出的 token 集合
OAR-P 的计算开销（O(L) forward passes per sequence）限制了大规模对比实验的可行性

四种独立发展的 token-level credit assignment 方法用完全不同的原理找"关键 token"。如果它们收敛到相同的 token 集合，说明推理链中存在一个稳定的"关键结构"；如果不收敛，说明"关键性"是多维度的。无论哪种结果，都比当前 GRPO 的 uniform assignment 更有信息量。