Critical Tokens 的四类 taxonomy 推测：perception anchors 和 strategic decisions 可能是不同的 token

看到了什么现象？

PEPO 论文发现正确推理依赖于一个紧凑的高 visual similarity (VS) token 子集（几何实体、空间属性）。Qwen “Sparse but Critical” 论文发现 RLVR 只改变 <17% token 的分布，且高 JS divergence 集中在 response 开头（策略选择）和结尾（答案格式化）。

这两组 “critical tokens” 是同一批 token 还是不同的 token？

为什么这重要？

如果是同一批 → token-level credit 的五种方法 (token-level blog) 在收敛到同一个"真正的"critical set。

如果不是同一批 → "关键性"是多维度的，不同方法捕捉的是不同方面的重要性。这意味着单一维度的 credit assignment 都是不完整的。

推测性 taxonomy

通过逻辑推导（不是实证），我推测这是四种不同类型的 critical token：

Token 类型	检测信号	功能	位置
Perception anchors	高 visual similarity	锚定推理到视觉证据	分散在推理链中
Strategic decisions	高 JS divergence (base vs RL)	选择推理方向	集中在 response 开头
Exploration transitions	高 token entropy	探索替代推理路径	推理转折点
Execution tokens	低 VS, 低 JS, 低 entropy	机械性执行推理步骤	推理中间步骤

证据整理

支持四种 token 是不同类型的证据：

PEPO word cloud 显示高 VS token 是 “geometric entities + spatial attributes”（名词性质），高 entropy token 是 “verification, correction, analysis”（动词/转折性质） — 它们的语义类别不同 [ref]
Qwen 发现高 JS divergence 集中在 response 开头 [ref]，而 PEPO 的高 VS token 分布在推理链各处（因为几何实体在推理过程中反复被引用）— 位置分布不同
PEPO 的 controlled ablation 显示：图片移除后，高 VS token 的 hidden state shift 大，高 entropy token shift 小 [ref] — 它们对视觉信息的依赖程度不同

支持部分重合的证据：

在多模态推理中，“strategic decision”（选择哪个几何关系来用）可能同时是高 VS（因为这个决策依赖于看到的图形）和高 JS divergence（因为 RL 在这里改变了选择） — 所以 perception anchor 和 strategic decision 可能有交集

一个可测试的预测

如果这个 taxonomy 是正确的：

RLVR 在多模态场景中应该主要在 strategic decision tokens 上产生 divergence，而 perception anchor tokens 的 divergence 较小。

理由：RL 不改变模型"看到什么"（perception 是 pretrain 决定的），而是改变模型"如何使用看到的东西"（strategic decisions 是 RL 优化的目标）。

验证方法：对一个多模态 RLVR 模型（如 Qwen2.5-VL + DAPO），同时计算每个 token 的 JS divergence（base vs RL）和 visual similarity。如果 Pearson correlation 接近 0 或负值，说明它们是不同维度；如果显著正相关，说明 perception 和 strategy 在同一位置。

批判

这是推测性的 taxonomy，没有实证支持。在有人做出上述验证实验之前，这只是一个概念框架
四类可能不是互斥的：一个 token 可以同时是 perception anchor 和 strategic decision（比如"因此 ∠ABC = 90°"这个 token 既引用了视觉信息又做了关键决策）
Execution token 不一定真的不重要：它们可能是推理链的"骨架"，虽然 RLVR 不改变它们，但如果它们不存在，整个推理就无法进行。不改变 ≠ 不重要
这个 taxonomy 可能只是 “naming things” 而非真正的发现。我需要检查：已有的框架（比如 HICRA 的 strategic/execution 二分 [ref]）能否解释所有观察？

和已知框架的关系

HICRA 已经提出了 strategic vs execution 的二分。我这里把 strategic 进一步拆分为 perception-dependent（高 VS）和 perception-independent（高 JS 但低 VS），把 PEPO 的 exploration 作为第三维。

检查：这是否是 HICRA 框架 + PEPO 框架的简单拼接？

可能是。HICRA 说"planning tokens > execution tokens"，PEPO 说"perception tokens + exploration tokens > uniform"。我这个 taxonomy 只是把两者合并了。如果是这样，它不是新发现，只是已知框架的重新组织。

什么情况下这个 taxonomy 会是有价值的新发现？ 如果实证表明四种 token 类型之间有交互效应（比如 perception anchor 上的 strategic decision 比 non-perception strategic decision 对 RL 训练贡献更大），那这个 taxonomy 就不只是两个框架的拼接，而是揭示了新的结构。

2026-03-25 21:30 思考 PEPO 和 Qwen “Sparse but Critical” 的 token 重合度问题