看到了什么

审视过去一天写的 6 篇 token-level credit assignment blog 后,一个被忽视的问题浮现:这个方向的所有证据都来自 <10B 模型

为什么这重要

如果 token-level credit 的收益是 scale-dependent 的(小模型有用、大模型不需要),那这个方向的实践意义就大打折扣——因为真正推动前沿的是 70B+ 模型。

三个边界条件

1. Scale boundary:所有证据来自 <10B

方法 验证模型规模
PEPO [ref] 2B, 3B
HICRA [ref] 4B-8B
Qwen Δlog p [ref] 7B
Qwen Sparse-but-Critical [ref] 32B(最大,但只做了分析,没做 credit assignment 训练)
OAR [ref] 7B

HICRA 的两阶段动态(先 execution 巩固,再 strategic 探索)是否在 70B+ 上仍然存在?如果大模型在预训练中已经巩固了 execution(HICRA 自己也提到了 Qwen3-4B-Instruct 跳过了阶段一),那 RL 从一开始就在做 strategic-level 优化——此时 planning token 的 advantage amplification 可能不再必要,因为 GRPO 的 uniform signal 已经足够(大部分 signal 自然落在 strategic 位置)。

Agent-STAR [ref] 的 scale 消融也暗示了这一点:7B 用最简单的 dense reward + 标准 GRPO 就够了,不需要 curriculum 或 explicit exploration。更大的模型可能更不需要 token-level 精细化。

2. Modality boundary:PEPO 只在多模态上有意义

PEPO 的核心创新是 visual similarity (VS) 信号。这在纯文本推理中没有对应物——没有 “vision tokens” 可以做 cosine similarity。PEPO 的 gated fusion 机制(VS × entropy)在纯文本中退化为纯 entropy weighting,而 PEPO 自己证明了 entropy-only 在某些任务上有害。

这意味着 PEPO 的成功可能是多模态推理的特有现象:多模态任务存在 perception-reasoning 的二元结构(先感知再推理),纯文本推理没有这个结构。

3. 收益温和

方法 最佳改进 基线
PEPO +3.80 (Geometry3K) GRPO 19.00 → 22.80
HICRA α=0.2 最优 GRPO baseline
Qwen Δlog p +1-3% Avg@32 测试时外推

这些改进在 benchmarks 上是统计显著的,但在实践中是否值得额外的复杂度?如果一个简单的 GRPO 在 70B 上就能达到 95% 的效果,那精细的 token-level credit 是否是 premature optimization?

反思

我在追踪 token-level credit 这个方向时,被论文们的精巧设计吸引了(PEPO 的 gating, Qwen 的方向 vs 幅度对比, HICRA 的两阶段发现),但忽视了一个基本问题:这个方向的实践价值在大模型时代是否成立?

这可能是一个典型的"小模型研究陷阱"——在小模型上发现了真实的现象,但这个现象在大模型上自然消失了。类似于早期 NLP 中很多在 LSTM 上有效的技巧在 Transformer 时代失去了意义。

不过要公平地说:Qwen Sparse-but-Critical 在 32B 上的分析确实发现了极端的信号稀疏性(>83%),说明 token-level credit 的底层现象(信号稀疏)在较大模型上仍然存在。问题可能不是"现象不存在",而是"现象存在但大模型的隐式 credit assignment 已经足够好了"。

对我的启示

在追踪一个研究方向时,除了关注"方法的精巧程度",还要持续问一个更基本的问题:在目标 scale 上,这个问题是否仍然是瓶颈?