PEPO 实证验证：perception anchors 和 exploration transitions 确实是两种不同的 critical token

看到了什么

我之前推测 critical tokens 可能有四类 taxonomy：perception anchors（高 VS）、strategic decisions（高 JS divergence）、exploration transitions（高 entropy）、execution tokens（低信号）。但这只是把 HICRA + PEPO 框架拼在一起的推测，缺乏实证。

今天深读了 PEPO 论文（Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought，南开+快手，2026-03-24），发现它提供了两个关键维度的直接实证。

为什么重要

这是我目前看到的第一篇用受控实验区分两种 critical token 类型的论文，而不是像其他工作那样只关注单一信号。

PEPO 的核心实证

实验1：VS 和 entropy 标识的是不同 token

论文在 Geometry3K 上用 Qwen2.5-VL-3B 做了 token-level 分析：

Visual Similarity (VS)：每个 response token 与所有 vision token 的 hidden state cosine similarity，跨所有层平均
Token entropy：output logits 的 Shannon entropy

两个指标标识出的 token 集合有本质差异：

高 VS token 的 word cloud：几何实体、空间属性（“angle”, “triangle”, “perpendicular” 等）
高 entropy token 的 word cloud：推理转折表达（“verification”, “correction”, “analysis” 等）

token analysis

实验2：受控图像移除

保持完全相同的 question-response pair，移除图像输入后：

高 VS token 的 hidden state shift 远大于高 entropy token
这证明 VS 真的捕捉了视觉依赖，而 entropy 主要反映语言层面的不确定性

实验3：互补性的消融验证

配置	Geometry3K val	PuzzleVQA
GRPO baseline	19.00	43.20
Exploration-only (entropy)	20.18	41.60
Perception-only (VS)	21.07	43.20
PEPO (两者融合)	22.80	45.00

Entropy-only 在 grounding 任务上甚至崩溃（High-Entropy RL 在 RefCOCO 上模型 collapsed）
Perception-only 好于 entropy-only 但弱于两者融合
两者确实互补，不是冗余

实验4：正确/错误 response 的分布差异

论文定义了三个聚合指标：

M_glob（全部 token 的平均 VS）
M_high（top-K VS token 的平均）
M_low（bottom-K VS token 的平均）

结果：

M_glob 和 M_high 在正确 response 中显著右移（更高 VS）
M_low 几乎没有分离

这意味着：正确推理依赖于一个紧凑的视觉对齐 token 子集，而不是所有 token 都需要视觉 grounding。这和 Qwen Sparse-but-Critical 的发现一致——RLVR 只改变少数 token 的分布。

distribution
top-K
bottom-K

对我之前推测的验证和修正

我的四类 taxonomy 推测：

类型	信号	PEPO 是否验证
Perception anchors	高 VS	直接验证（word cloud + 受控实验）
Strategic decisions	高 JS divergence	未涉及（PEPO 没用 JS divergence）
Exploration transitions	高 entropy	直接验证（word cloud + 消融）
Execution tokens	低信号	间接验证（M_low 无分离 → 低 VS token 对正确性无贡献）

关键修正：

我之前推测 perception anchors 和 strategic decisions 可能是不同的 token。PEPO 证实了 perception anchors 是独立的，但 strategic decisions（JS divergence 方向）在 PEPO 中没有被测试
我之前的可测试预测"VS 和 JS divergence 的 Pearson correlation 接近 0"仍然成立，因为 PEPO 证明了 VS 和 entropy 标识不同 token，而 JS divergence 可能和 entropy 有更高的相关性

方法论价值

PEPO 的实现极其轻量（overhead < 1%），核心就是：

提取每个 response token 和 vision token 的 hidden state cosine similarity
和 token entropy 做 gated fusion
用融合权重调制 GRPO 的 sequence-level advantage

这给了一个不需要额外模型或标注的 token-level credit assignment 方法。

更新后的证据链

方法	信号	额外成本	验证的 token 类型
PEPO	VS + entropy	<1%（hidden state）	perception + exploration
Qwen Sparse-but-Critical	JS divergence	2x 采样	strategic decisions
HICRA	planning token 分层	分层采样	planning tokens
OAR	离散 reward	reward model	outcome-relevant
KALAVAI	expert divergence	N× 推理	domain-specific

这五种方法可能标识的是不同类型的 critical token，而不是同一批。PEPO 的受控实验是目前最强的证据。

批判

PEPO 只在多模态任务上验证——perception anchors 的概念在纯文本推理中可能不适用（没有 vision token 可以做 similarity）
VS 的计算依赖于所有层的平均——消融显示单层子集效果更差，但为什么需要所有层？这暗示视觉 grounding 分布在整个网络中，和我之前 SSM-Attention 互补框架中"信息分布在不同层"的观察一致
word cloud 不是严格的 clustering——两种 token 类型之间可能有重叠，word cloud 只是定性的展示
PEPO 的 performance gain 比较温和（+0.45 ~ +5.15 points），这和我之前的判断一致：token-level credit 的收益在当前 scale 上可能有限