现象

7B 模型用最简单的 dense Sum reward + 标准 GRPO 就能在 TravelPlanner 上达到 62.8% 成功率,但 1.5B 模型用同样配置只有 33.1%。反过来,1.5B 用 curriculum reward + ARPO 探索算法能到 37.5%,而 7B 用这些复杂方法反而不如简单配置。

最优的 RL 设计选择,不是固定的,而是随模型规模变化。

为什么重要

我之前在 Post-training 天花板的五个维度 中总结了维度四(信号密度)为 “dense > sparse”。但 Agent-STAR [ref] 的系统实验表明这不是无条件成立的 — scale 是一个调节变量,改变了其他维度的最优值。

Agent-STAR 的实验设计

论文在 TravelPlanner(旅行规划 agent,需要 ~9.2 次工具调用,~10.3K token 轨迹)上系统性地分解了 5 个设计轴:

  1. Reward shaping: Sum(dense)→ Macro(semi-sparse)→ Success(sparse)→ Curriculum(dense→sparse 渐进)
  2. Model scaling: Qwen2.5-Instruct 1.5B / 3B / 7B
  3. Data composition: 100-2K 样本量 × easy/medium/hard 难度混合
  4. Algorithm selection: GRPO vs DAPO(过滤零方差 batch)vs ARPO(熵引导自适应分支)
  5. Environmental stability: 0-10% 随机工具执行失败

每次只变一个因素,其余固定。1K 训练样本,SFT 作为 RL 起点。

7 个核心发现

T1: Reward 选择是 scale-dependent 的

Scale Best In-Domain Success Rate
1.5B Curriculum 34.9%
3B Curriculum 49.9%
7B Sum (dense) 62.8%

小模型的 credit assignment 能力弱,需要 curriculum 从 dense 渐进到 sparse。大模型可以直接利用 dense feedback。Sparse Success reward 在任何 scale 下都不是最优的。

T2: Dense reward 的 OOD alignment tax

7B 用 Sum reward 在 TravelPlanner 上最强(62.8%),但 OOD 知识问答平均只有 36.7%,低于 SFT checkpoint 的 41.9%。也就是说 dense reward 让模型过拟合到训练任务格式。Semi-sparse Macro reward 则保持了 OOD 竞争力(42.9%)。

这修正了我之前 “dense > sparse” 的简单结论:dense reward 有过拟合风险,semi-sparse 在 generalization 上更好。

T3: Scaling 一致有益

1.5B → 7B 在 Sum reward 下成功率从 33.1% → 62.8%,几乎翻倍。但收益幅度是 reward-dependent 的(Sum: +15.8% from 3B→7B, Curriculum: +7.1%)。

T4: 数据存在 sweet spot (~1K)

100 → 1K:In-domain 从 37.5% → 49.9%,OOD 也达峰值 35.0%。
1K → 2K:In-domain 仅 +0.9%,OOD 从 35.0% → 32.2%,开始过拟合

T5: 混合难度防止 reward 稀疏性崩溃

Hard-only 训练导致灾难(25.9% 成功率),因为复杂约束使成功轨迹极其稀少,reward 太稀疏学不到基础 commonsense。Mixed (4:3:3) 达到 49.9%。

这和 PivotRL 的 71% 零信号 turns 观察呼应:当环境本身导致 reward 稀疏,信号密度维度成为瓶颈

T6: 探索策略的必要性与模型能力反相关

Scale GRPO DAPO ARPO
1.5B 30.1% 36.9% 37.5%
3B 48.2% 45.6% 47.5%
7B 62.8% 58.4% 58.3%

1.5B 需要 ARPO/DAPO 的显式探索辅助,7B 用标准 GRPO 就行且更高效。ARPO 的时间开销比 GRPO 高 ~50%(547 vs 368 GPU hours for 7B)。

T7: 环境稳定性是 agentic RL 的前提

5% 工具错误率 → 性能仅轻微波动。10% → 显著退化。高噪声阻止 agent 完成成功轨迹,从而饿死 reward 信号。

对 Post-training 框架的启示

之前的理解 修正
维度四: dense > sparse dense > sparse 在大模型上成立;小模型需要 curriculum;dense reward 有 OOD 过拟合风险
维度之间独立 Scale 是跨维度的调节变量,改变其他维度的最优配置

新增的可能维度:

  • 环境稳定性(Agentic 特有):工具执行噪声直接降低信号密度
  • 探索策略:但这可能只是 “行为 repertoire” 维度的操作化 — 大模型已有丰富的行为 repertoire 所以不需要显式探索

局限性和批判

  1. 单一环境: 所有结论来自 TravelPlanner,一个模拟旅行规划环境。迁移到 web browsing、code generation 等不同类型的 agent 任务时,scale-dependency 的具体模式可能不同。
  2. 最大仅 7B: 不知道 70B+ 模型是否继续延续 “大模型用简单方法” 的趋势。
  3. SFT → RL pipeline: 论文用 ~1.2K SFT 轨迹作为 RL 起点。SFT 数据质量和数量对 RL 起点的影响未被充分探索。
  4. Curriculum reward 的设计: Curriculum 何时从 dense 切换到 sparse 是基于人工启发式,不是自适应的。这个切换点本身可能也是 scale-dependent 的。

论文自己也承认了前三点局限。第四点是我的观察。

一句话总结

Agent-STAR 通过系统消融实验展示了长程 Agent RL 中各设计维度的 scale-dependency — 最优的 reward density、探索策略在不同模型规模下不同,这修正了我之前"dense > sparse"的简单结论,并提示我的 Post-training 五维度框架需要增加 scale 作为跨维度的调节变量。