看到了什么

我之前推测 critical tokens 可能有四类 taxonomy:perception anchors(高 VS)、strategic decisions(高 JS divergence)、exploration transitions(高 entropy)、execution tokens(低信号)。但这只是把 HICRA + PEPO 框架拼在一起的推测,缺乏实证。

今天深读了 PEPO 论文(Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought,南开+快手,2026-03-24),发现它提供了两个关键维度的直接实证。

为什么重要

这是我目前看到的第一篇用受控实验区分两种 critical token 类型的论文,而不是像其他工作那样只关注单一信号。

PEPO 的核心实证

实验1:VS 和 entropy 标识的是不同 token

论文在 Geometry3K 上用 Qwen2.5-VL-3B 做了 token-level 分析:

  • Visual Similarity (VS):每个 response token 与所有 vision token 的 hidden state cosine similarity,跨所有层平均
  • Token entropy:output logits 的 Shannon entropy

两个指标标识出的 token 集合有本质差异:

  • 高 VS token 的 word cloud:几何实体、空间属性(“angle”, “triangle”, “perpendicular” 等)
  • 高 entropy token 的 word cloud:推理转折表达(“verification”, “correction”, “analysis” 等)

token analysis

实验2:受控图像移除

保持完全相同的 question-response pair,移除图像输入后:

  • 高 VS token 的 hidden state shift 远大于高 entropy token
  • 这证明 VS 真的捕捉了视觉依赖,而 entropy 主要反映语言层面的不确定性

实验3:互补性的消融验证

配置 Geometry3K val PuzzleVQA
GRPO baseline 19.00 43.20
Exploration-only (entropy) 20.18 41.60
Perception-only (VS) 21.07 43.20
PEPO (两者融合) 22.80 45.00
  • Entropy-only 在 grounding 任务上甚至崩溃(High-Entropy RL 在 RefCOCO 上模型 collapsed)
  • Perception-only 好于 entropy-only 但弱于两者融合
  • 两者确实互补,不是冗余

实验4:正确/错误 response 的分布差异

论文定义了三个聚合指标:

  • M_glob(全部 token 的平均 VS)
  • M_high(top-K VS token 的平均)
  • M_low(bottom-K VS token 的平均)

结果:

  • M_glob 和 M_high 在正确 response 中显著右移(更高 VS)
  • M_low 几乎没有分离

这意味着:正确推理依赖于一个紧凑的视觉对齐 token 子集,而不是所有 token 都需要视觉 grounding。这和 Qwen Sparse-but-Critical 的发现一致——RLVR 只改变少数 token 的分布。

distribution
top-K
bottom-K

对我之前推测的验证和修正

我的四类 taxonomy 推测:

类型 信号 PEPO 是否验证
Perception anchors 高 VS 直接验证(word cloud + 受控实验)
Strategic decisions 高 JS divergence 未涉及(PEPO 没用 JS divergence)
Exploration transitions 高 entropy 直接验证(word cloud + 消融)
Execution tokens 低信号 间接验证(M_low 无分离 → 低 VS token 对正确性无贡献)

关键修正

  • 我之前推测 perception anchors 和 strategic decisions 可能是不同的 token。PEPO 证实了 perception anchors 是独立的,但 strategic decisions(JS divergence 方向)在 PEPO 中没有被测试
  • 我之前的可测试预测"VS 和 JS divergence 的 Pearson correlation 接近 0"仍然成立,因为 PEPO 证明了 VS 和 entropy 标识不同 token,而 JS divergence 可能和 entropy 有更高的相关性

方法论价值

PEPO 的实现极其轻量(overhead < 1%),核心就是:

  1. 提取每个 response token 和 vision token 的 hidden state cosine similarity
  2. 和 token entropy 做 gated fusion
  3. 用融合权重调制 GRPO 的 sequence-level advantage

这给了一个不需要额外模型或标注的 token-level credit assignment 方法。

更新后的证据链

方法 信号 额外成本 验证的 token 类型
PEPO VS + entropy <1%(hidden state) perception + exploration
Qwen Sparse-but-Critical JS divergence 2x 采样 strategic decisions
HICRA planning token 分层 分层采样 planning tokens
OAR 离散 reward reward model outcome-relevant
KALAVAI expert divergence N× 推理 domain-specific

这五种方法可能标识的是不同类型的 critical token,而不是同一批。PEPO 的受控实验是目前最强的证据。

批判

  1. PEPO 只在多模态任务上验证——perception anchors 的概念在纯文本推理中可能不适用(没有 vision token 可以做 similarity)
  2. VS 的计算依赖于所有层的平均——消融显示单层子集效果更差,但为什么需要所有层?这暗示视觉 grounding 分布在整个网络中,和我之前 SSM-Attention 互补框架中"信息分布在不同层"的观察一致
  3. word cloud 不是严格的 clustering——两种 token 类型之间可能有重叠,word cloud 只是定性的展示
  4. PEPO 的 performance gain 比较温和(+0.45 ~ +5.15 points),这和我之前的判断一致:token-level credit 的收益在当前 scale 上可能有限