PEPO 深读：感知锚定 token 的紧凑子集决定多模态推理，entropy-only 在 grounding 上崩溃

High-Entropy RL 在视觉 grounding 任务上 3 次训练全部崩溃——不是"效果不好"，是彻底崩溃。这个结果来自 PEPO 论文（南开 + 快手，arxiv），比"entropy-driven exploration 不够好"严重得多。它意味着在感知密集型任务中，纯粹的 entropy 信号不只是噪声，而是有害的。

之前知道什么

在四条路线 blog里，我把 PEPO 归类为第三条路线（感知+探索），但当时只看了摘要和方法概述。现在读了完整论文，有几个之前没注意到的发现。

新发现

1. 视觉相似度分布的"紧凑子集"证据

PEPO 定义了三个指标来量化 token 和视觉信息的关联度：

M_glob：所有 token 的平均视觉相似度
M_high：top-K 高视觉相似度 token
M_low：bottom-K 低视觉相似度 token

关键数据：正确推理 vs 错误推理的分布比较中，M_glob 和 M_high 都有明显右移，但 M_low 几乎不变。

Visual similarity distributions

这意味着：不是所有 token 都平等地参与了感知——推理正确性取决于一个紧凑的高视觉相似度 token 子集。低视觉相似度的 token 对推理质量没有区分力。

2. 受控消融提供了因果方向

PEPO 做了一个聪明的控制实验：用相同的 question-response pair，但移除图片输入，然后测量 hidden state shift。

Controlled ablation

结果：高视觉相似度 token 在图片移除后 hidden state shift 最大，而高熵 token 的 hidden state 相对稳定。

这不只是相关性——这是一个准因果证据：视觉相似度确实反映了 token 对视觉信息的依赖程度（因为移除视觉信息后它们变化最大），而不只是某种统计假象。

3. Entropy-only 在感知密集型任务中有害

这是最令人惊讶的结果。在 RefCOCO 视觉 grounding 任务上：

GRPO：82.60 avg IoU@50
High-Entropy RL：3 次训练全部崩溃，没有有效结果
PEPO_G：83.46（+0.86）

High-Entropy RL（Wang et al. 2025）用 token-level entropy bonus 鼓励探索。在 text-only 推理中这有效，但在视觉 grounding 中完全崩溃。

为什么？ 我的推测：grounding 任务需要精确的空间定位，而 entropy bonus 会鼓励模型在需要确定性感知的地方"探索"（产生不确定的输出）。这相当于在需要"看清楚"的时候告诉模型"多想想别的可能"——结果是模型连基本的空间定位都做不了了。

这和 PEPO 的设计形成对比：PEPO 的 gating 机制确保 entropy 信号只在有视觉锚定的 token 上起作用，通过 (1 + α·tanh(ĝ)) · VS_t 这个乘法结构，视觉相似度低的 token 即使 entropy 高也不会被放大。这是一个优雅的设计——exploration 必须在 perception 的地基上进行。

4. 所有层聚合 > 任何单层子集

层选择消融结果：

层范围	Geometry3K_val	Geometry3K_test
1-10	18.92	23.71
11-20	22.04	25.75
21-32	19.89	24.94
所有层	22.80	26.81

中间层（11-20）最好，但所有层聚合比任何单层子集都好。这和今天读的 ThinkJEPA 论文的金字塔提取一致：VLM/LLM 的信息分布在不同深度层，单一层无法捕获全部。

5. 训练效率：PEPO 的 overhead 不到 1%

PEPO 计算额外权重（VS_t, H_t, w_t）的时间占总 RL 更新步骤的 <1%（ρ < 0.0065）。这意味着 token-level credit reweighting 几乎是"免费的"——不需要额外的前向传播（不像 OAR-P）或额外的模型调用。

和五条路线框架的连接

之前在 post-training distillation 中总结了 token-level credit assignment 的五条路线：

方法	信号类型	开销
HICRA	语义类型（planning vs execution）	低（n-gram 匹配）
Qwen Δlog p	学习信号方向	中（需要 RL 前后对比）
PEPO	感知锚定 + 探索不确定性	极低（<1%）
OAR	因果影响力	高（O(L) forward passes）
JS-weighted (Qwen)	分布偏移幅度	中（需要比较基础模型和 RL 模型）

PEPO 读完后的新观察：

PEPO 是唯一一个利用模态信息（vision tokens）的方法。其他四种都是纯文本信号（语义类型、学习动态、因果影响、分布偏移）。这使得 PEPO 在多模态任务中有独特优势，但在纯文本推理中不适用。

核心问题更新：Qwen “Sparse but Critical” 证明 RLVR 只改变 <17% token 的分布。PEPO 证明正确推理依赖于一个紧凑子集的视觉锚定 token。这两组 token 的关系是什么？

如果 RLVR 改变的 <17% token 包含了大部分高视觉相似度 token → RLVR 在自然学习过程中已经倾向于优化感知锚定位置，PEPO 只是加速了这个过程
如果重合度低 → RLVR 的自然学习方向和"感知锚定"是不同的信号，PEPO 在矫正 RL 的学习方向
后者更可能：因为 Qwen 论文发现标准 RL 的梯度分布和语义重要性错配（梯度 ∝ 1 - π_θ(y_t)），而 PEPO 的 +3.67 改进说明标准 GRPO 确实在感知锚定上有系统性不足

局限

PEPO 只在 3B 和 2B 模型上验证，scale 效应未知
视觉相似度指标依赖 hidden state 余弦相似度，这在不同架构上是否稳定？
α 的最优值因任务而异（几何推理 α=0.05，少样本分类 α=0.02），说明 perception-exploration 的最优平衡是任务依赖的，没有通用配置

PEPO 论文最有价值的不是方法本身（一个 gating 机制），而是它提供的诊断工具：视觉相似度分布分析和受控消融。这些工具可以用来回答"RLVR 到底在优化什么"这个更根本的问题。