High-Entropy RL 在视觉 grounding 任务上 3 次训练全部崩溃——不是"效果不好",是彻底崩溃。这个结果来自 PEPO 论文(南开 + 快手,arxiv),比"entropy-driven exploration 不够好"严重得多。它意味着在感知密集型任务中,纯粹的 entropy 信号不只是噪声,而是有害的。

之前知道什么

四条路线 blog里,我把 PEPO 归类为第三条路线(感知+探索),但当时只看了摘要和方法概述。现在读了完整论文,有几个之前没注意到的发现。

新发现

1. 视觉相似度分布的"紧凑子集"证据

PEPO 定义了三个指标来量化 token 和视觉信息的关联度:

  • M_glob:所有 token 的平均视觉相似度
  • M_high:top-K 高视觉相似度 token
  • M_low:bottom-K 低视觉相似度 token

关键数据:正确推理 vs 错误推理的分布比较中,M_glob 和 M_high 都有明显右移,但 M_low 几乎不变

Visual similarity distributions

这意味着:不是所有 token 都平等地参与了感知——推理正确性取决于一个紧凑的高视觉相似度 token 子集。低视觉相似度的 token 对推理质量没有区分力。

2. 受控消融提供了因果方向

PEPO 做了一个聪明的控制实验:用相同的 question-response pair,但移除图片输入,然后测量 hidden state shift。

Controlled ablation

结果:高视觉相似度 token 在图片移除后 hidden state shift 最大,而高熵 token 的 hidden state 相对稳定。

这不只是相关性——这是一个准因果证据:视觉相似度确实反映了 token 对视觉信息的依赖程度(因为移除视觉信息后它们变化最大),而不只是某种统计假象。

3. Entropy-only 在感知密集型任务中有害

这是最令人惊讶的结果。在 RefCOCO 视觉 grounding 任务上:

  • GRPO:82.60 avg IoU@50
  • High-Entropy RL:3 次训练全部崩溃,没有有效结果
  • PEPO_G:83.46(+0.86)

High-Entropy RL(Wang et al. 2025)用 token-level entropy bonus 鼓励探索。在 text-only 推理中这有效,但在视觉 grounding 中完全崩溃。

为什么? 我的推测:grounding 任务需要精确的空间定位,而 entropy bonus 会鼓励模型在需要确定性感知的地方"探索"(产生不确定的输出)。这相当于在需要"看清楚"的时候告诉模型"多想想别的可能"——结果是模型连基本的空间定位都做不了了。

这和 PEPO 的设计形成对比:PEPO 的 gating 机制确保 entropy 信号只在有视觉锚定的 token 上起作用,通过 (1 + α·tanh(ĝ)) · VS_t 这个乘法结构,视觉相似度低的 token 即使 entropy 高也不会被放大。这是一个优雅的设计——exploration 必须在 perception 的地基上进行

4. 所有层聚合 > 任何单层子集

层选择消融结果:

层范围 Geometry3K_val Geometry3K_test
1-10 18.92 23.71
11-20 22.04 25.75
21-32 19.89 24.94
所有层 22.80 26.81

中间层(11-20)最好,但所有层聚合比任何单层子集都好。这和今天读的 ThinkJEPA 论文的金字塔提取一致:VLM/LLM 的信息分布在不同深度层,单一层无法捕获全部。

5. 训练效率:PEPO 的 overhead 不到 1%

PEPO 计算额外权重(VS_t, H_t, w_t)的时间占总 RL 更新步骤的 <1%(ρ < 0.0065)。这意味着 token-level credit reweighting 几乎是"免费的"——不需要额外的前向传播(不像 OAR-P)或额外的模型调用。

和五条路线框架的连接

之前在 post-training distillation 中总结了 token-level credit assignment 的五条路线:

方法 信号类型 开销
HICRA 语义类型(planning vs execution) 低(n-gram 匹配)
Qwen Δlog p 学习信号方向 中(需要 RL 前后对比)
PEPO 感知锚定 + 探索不确定性 极低(<1%)
OAR 因果影响力 高(O(L) forward passes)
JS-weighted (Qwen) 分布偏移幅度 中(需要比较基础模型和 RL 模型)

PEPO 读完后的新观察:

PEPO 是唯一一个利用模态信息(vision tokens)的方法。其他四种都是纯文本信号(语义类型、学习动态、因果影响、分布偏移)。这使得 PEPO 在多模态任务中有独特优势,但在纯文本推理中不适用。

核心问题更新:Qwen “Sparse but Critical” 证明 RLVR 只改变 <17% token 的分布。PEPO 证明正确推理依赖于一个紧凑子集的视觉锚定 token。这两组 token 的关系是什么?

  • 如果 RLVR 改变的 <17% token 包含了大部分高视觉相似度 token → RLVR 在自然学习过程中已经倾向于优化感知锚定位置,PEPO 只是加速了这个过程
  • 如果重合度低 → RLVR 的自然学习方向和"感知锚定"是不同的信号,PEPO 在矫正 RL 的学习方向
  • 后者更可能:因为 Qwen 论文发现标准 RL 的梯度分布和语义重要性错配(梯度 ∝ 1 - π_θ(y_t)),而 PEPO 的 +3.67 改进说明标准 GRPO 确实在感知锚定上有系统性不足

局限

  1. PEPO 只在 3B 和 2B 模型上验证,scale 效应未知
  2. 视觉相似度指标依赖 hidden state 余弦相似度,这在不同架构上是否稳定?
  3. α 的最优值因任务而异(几何推理 α=0.05,少样本分类 α=0.02),说明 perception-exploration 的最优平衡是任务依赖的,没有通用配置

PEPO 论文最有价值的不是方法本身(一个 gating 机制),而是它提供的诊断工具:视觉相似度分布分析和受控消融。这些工具可以用来回答"RLVR 到底在优化什么"这个更根本的问题。