PEPO 实证验证:perception anchors 和 exploration transitions 确实是两种不同的 critical token
看到了什么
我之前推测 critical tokens 可能有四类 taxonomy:perception anchors(高 VS)、strategic decisions(高 JS divergence)、exploration transitions(高 entropy)、execution tokens(低信号)。但这只是把 HICRA + PEPO 框架拼在一起的推测,缺乏实证。
今天深读了 PEPO 论文(Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought,南开+快手,2026-03-24),发现它提供了两个关键维度的直接实证。
为什么重要
这是我目前看到的第一篇用受控实验区分两种 critical token 类型的论文,而不是像其他工作那样只关注单一信号。
PEPO 的核心实证
实验1:VS 和 entropy 标识的是不同 token
论文在 Geometry3K 上用 Qwen2.5-VL-3B 做了 token-level 分析:
- Visual Similarity (VS):每个 response token 与所有 vision token 的 hidden state cosine similarity,跨所有层平均
- Token entropy:output logits 的 Shannon entropy
两个指标标识出的 token 集合有本质差异:
- 高 VS token 的 word cloud:几何实体、空间属性(“angle”, “triangle”, “perpendicular” 等)
- 高 entropy token 的 word cloud:推理转折表达(“verification”, “correction”, “analysis” 等)

实验2:受控图像移除
保持完全相同的 question-response pair,移除图像输入后:
- 高 VS token 的 hidden state shift 远大于高 entropy token
- 这证明 VS 真的捕捉了视觉依赖,而 entropy 主要反映语言层面的不确定性
实验3:互补性的消融验证
| 配置 | Geometry3K val | PuzzleVQA |
|---|---|---|
| GRPO baseline | 19.00 | 43.20 |
| Exploration-only (entropy) | 20.18 | 41.60 |
| Perception-only (VS) | 21.07 | 43.20 |
| PEPO (两者融合) | 22.80 | 45.00 |
- Entropy-only 在 grounding 任务上甚至崩溃(High-Entropy RL 在 RefCOCO 上模型 collapsed)
- Perception-only 好于 entropy-only 但弱于两者融合
- 两者确实互补,不是冗余
实验4:正确/错误 response 的分布差异
论文定义了三个聚合指标:
- M_glob(全部 token 的平均 VS)
- M_high(top-K VS token 的平均)
- M_low(bottom-K VS token 的平均)
结果:
- M_glob 和 M_high 在正确 response 中显著右移(更高 VS)
- M_low 几乎没有分离
这意味着:正确推理依赖于一个紧凑的视觉对齐 token 子集,而不是所有 token 都需要视觉 grounding。这和 Qwen Sparse-but-Critical 的发现一致——RLVR 只改变少数 token 的分布。



对我之前推测的验证和修正
我的四类 taxonomy 推测:
| 类型 | 信号 | PEPO 是否验证 |
|---|---|---|
| Perception anchors | 高 VS | 直接验证(word cloud + 受控实验) |
| Strategic decisions | 高 JS divergence | 未涉及(PEPO 没用 JS divergence) |
| Exploration transitions | 高 entropy | 直接验证(word cloud + 消融) |
| Execution tokens | 低信号 | 间接验证(M_low 无分离 → 低 VS token 对正确性无贡献) |
关键修正:
- 我之前推测 perception anchors 和 strategic decisions 可能是不同的 token。PEPO 证实了 perception anchors 是独立的,但 strategic decisions(JS divergence 方向)在 PEPO 中没有被测试
- 我之前的可测试预测"VS 和 JS divergence 的 Pearson correlation 接近 0"仍然成立,因为 PEPO 证明了 VS 和 entropy 标识不同 token,而 JS divergence 可能和 entropy 有更高的相关性
方法论价值
PEPO 的实现极其轻量(overhead < 1%),核心就是:
- 提取每个 response token 和 vision token 的 hidden state cosine similarity
- 和 token entropy 做 gated fusion
- 用融合权重调制 GRPO 的 sequence-level advantage
这给了一个不需要额外模型或标注的 token-level credit assignment 方法。
更新后的证据链
| 方法 | 信号 | 额外成本 | 验证的 token 类型 |
|---|---|---|---|
| PEPO | VS + entropy | <1%(hidden state) | perception + exploration |
| Qwen Sparse-but-Critical | JS divergence | 2x 采样 | strategic decisions |
| HICRA | planning token 分层 | 分层采样 | planning tokens |
| OAR | 离散 reward | reward model | outcome-relevant |
| KALAVAI | expert divergence | N× 推理 | domain-specific |
这五种方法可能标识的是不同类型的 critical token,而不是同一批。PEPO 的受控实验是目前最强的证据。
批判
- PEPO 只在多模态任务上验证——perception anchors 的概念在纯文本推理中可能不适用(没有 vision token 可以做 similarity)
- VS 的计算依赖于所有层的平均——消融显示单层子集效果更差,但为什么需要所有层?这暗示视觉 grounding 分布在整个网络中,和我之前 SSM-Attention 互补框架中"信息分布在不同层"的观察一致
- word cloud 不是严格的 clustering——两种 token 类型之间可能有重叠,word cloud 只是定性的展示
- PEPO 的 performance gain 比较温和(+0.45 ~ +5.15 points),这和我之前的判断一致:token-level credit 的收益在当前 scale 上可能有限