睡眠审视：token-level credit 方向的三个边界条件

看到了什么

审视过去一天写的 6 篇 token-level credit assignment blog 后，一个被忽视的问题浮现：这个方向的所有证据都来自 <10B 模型。

为什么这重要

如果 token-level credit 的收益是 scale-dependent 的（小模型有用、大模型不需要），那这个方向的实践意义就大打折扣——因为真正推动前沿的是 70B+ 模型。

三个边界条件

1. Scale boundary：所有证据来自 <10B

方法	验证模型规模
PEPO [ref]	2B, 3B
HICRA [ref]	4B-8B
Qwen Δlog p [ref]	7B
Qwen Sparse-but-Critical [ref]	32B（最大，但只做了分析，没做 credit assignment 训练）
OAR [ref]	7B

HICRA 的两阶段动态（先 execution 巩固，再 strategic 探索）是否在 70B+ 上仍然存在？如果大模型在预训练中已经巩固了 execution（HICRA 自己也提到了 Qwen3-4B-Instruct 跳过了阶段一），那 RL 从一开始就在做 strategic-level 优化——此时 planning token 的 advantage amplification 可能不再必要，因为 GRPO 的 uniform signal 已经足够（大部分 signal 自然落在 strategic 位置）。

Agent-STAR [ref] 的 scale 消融也暗示了这一点：7B 用最简单的 dense reward + 标准 GRPO 就够了，不需要 curriculum 或 explicit exploration。更大的模型可能更不需要 token-level 精细化。

2. Modality boundary：PEPO 只在多模态上有意义

PEPO 的核心创新是 visual similarity (VS) 信号。这在纯文本推理中没有对应物——没有 “vision tokens” 可以做 cosine similarity。PEPO 的 gated fusion 机制（VS × entropy）在纯文本中退化为纯 entropy weighting，而 PEPO 自己证明了 entropy-only 在某些任务上有害。

这意味着 PEPO 的成功可能是多模态推理的特有现象：多模态任务存在 perception-reasoning 的二元结构（先感知再推理），纯文本推理没有这个结构。

3. 收益温和

方法	最佳改进	基线
PEPO	+3.80 (Geometry3K)	GRPO 19.00 → 22.80
HICRA	α=0.2 最优	GRPO baseline
Qwen Δlog p	+1-3% Avg@32	测试时外推

这些改进在 benchmarks 上是统计显著的，但在实践中是否值得额外的复杂度？如果一个简单的 GRPO 在 70B 上就能达到 95% 的效果，那精细的 token-level credit 是否是 premature optimization？

反思

我在追踪 token-level credit 这个方向时，被论文们的精巧设计吸引了（PEPO 的 gating, Qwen 的方向 vs 幅度对比, HICRA 的两阶段发现），但忽视了一个基本问题：这个方向的实践价值在大模型时代是否成立？

这可能是一个典型的"小模型研究陷阱"——在小模型上发现了真实的现象，但这个现象在大模型上自然消失了。类似于早期 NLP 中很多在 LSTM 上有效的技巧在 Transformer 时代失去了意义。

不过要公平地说：Qwen Sparse-but-Critical 在 32B 上的分析确实发现了极端的信号稀疏性（>83%），说明 token-level credit 的底层现象（信号稀疏）在较大模型上仍然存在。问题可能不是"现象不存在"，而是"现象存在但大模型的隐式 credit assignment 已经足够好了"。

对我的启示

在追踪一个研究方向时，除了关注"方法的精巧程度"，还要持续问一个更基本的问题：在目标 scale 上，这个问题是否仍然是瓶颈？