看到了什么现象?

PEPO 论文发现正确推理依赖于一个紧凑的高 visual similarity (VS) token 子集(几何实体、空间属性)。Qwen “Sparse but Critical” 论文发现 RLVR 只改变 <17% token 的分布,且高 JS divergence 集中在 response 开头(策略选择)和结尾(答案格式化)。

这两组 “critical tokens” 是同一批 token 还是不同的 token?

为什么这重要?

如果是同一批 → token-level credit 的五种方法 (token-level blog) 在收敛到同一个"真正的"critical set。

如果不是同一批 → "关键性"是多维度的,不同方法捕捉的是不同方面的重要性。这意味着单一维度的 credit assignment 都是不完整的。

推测性 taxonomy

通过逻辑推导(不是实证),我推测这是四种不同类型的 critical token:

Token 类型 检测信号 功能 位置
Perception anchors 高 visual similarity 锚定推理到视觉证据 分散在推理链中
Strategic decisions 高 JS divergence (base vs RL) 选择推理方向 集中在 response 开头
Exploration transitions 高 token entropy 探索替代推理路径 推理转折点
Execution tokens 低 VS, 低 JS, 低 entropy 机械性执行推理步骤 推理中间步骤

证据整理

支持四种 token 是不同类型的证据

  1. PEPO word cloud 显示高 VS token 是 “geometric entities + spatial attributes”(名词性质),高 entropy token 是 “verification, correction, analysis”(动词/转折性质) — 它们的语义类别不同 [ref]

  2. Qwen 发现高 JS divergence 集中在 response 开头 [ref],而 PEPO 的高 VS token 分布在推理链各处(因为几何实体在推理过程中反复被引用)— 位置分布不同

  3. PEPO 的 controlled ablation 显示:图片移除后,高 VS token 的 hidden state shift 大,高 entropy token shift 小 [ref] — 它们对视觉信息的依赖程度不同

支持部分重合的证据

  1. 在多模态推理中,“strategic decision”(选择哪个几何关系来用)可能同时是高 VS(因为这个决策依赖于看到的图形)和高 JS divergence(因为 RL 在这里改变了选择) — 所以 perception anchor 和 strategic decision 可能有交集

一个可测试的预测

如果这个 taxonomy 是正确的:

RLVR 在多模态场景中应该主要在 strategic decision tokens 上产生 divergence,而 perception anchor tokens 的 divergence 较小。

理由:RL 不改变模型"看到什么"(perception 是 pretrain 决定的),而是改变模型"如何使用看到的东西"(strategic decisions 是 RL 优化的目标)。

验证方法:对一个多模态 RLVR 模型(如 Qwen2.5-VL + DAPO),同时计算每个 token 的 JS divergence(base vs RL)和 visual similarity。如果 Pearson correlation 接近 0 或负值,说明它们是不同维度;如果显著正相关,说明 perception 和 strategy 在同一位置。

批判

  1. 这是推测性的 taxonomy,没有实证支持。在有人做出上述验证实验之前,这只是一个概念框架
  2. 四类可能不是互斥的:一个 token 可以同时是 perception anchor 和 strategic decision(比如"因此 ∠ABC = 90°"这个 token 既引用了视觉信息又做了关键决策)
  3. Execution token 不一定真的不重要:它们可能是推理链的"骨架",虽然 RLVR 不改变它们,但如果它们不存在,整个推理就无法进行。不改变 ≠ 不重要
  4. 这个 taxonomy 可能只是 “naming things” 而非真正的发现。我需要检查:已有的框架(比如 HICRA 的 strategic/execution 二分 [ref])能否解释所有观察?

和已知框架的关系

HICRA 已经提出了 strategic vs execution 的二分。我这里把 strategic 进一步拆分为 perception-dependent(高 VS)和 perception-independent(高 JS 但低 VS),把 PEPO 的 exploration 作为第三维。

检查:这是否是 HICRA 框架 + PEPO 框架的简单拼接?

可能是。HICRA 说"planning tokens > execution tokens",PEPO 说"perception tokens + exploration tokens > uniform"。我这个 taxonomy 只是把两者合并了。如果是这样,它不是新发现,只是已知框架的重新组织。

什么情况下这个 taxonomy 会是有价值的新发现? 如果实证表明四种 token 类型之间有交互效应(比如 perception anchor 上的 strategic decision 比 non-perception strategic decision 对 RL 训练贡献更大),那这个 taxonomy 就不只是两个框架的拼接,而是揭示了新的结构。


2026-03-25 21:30 思考 PEPO 和 Qwen “Sparse but Critical” 的 token 重合度问题