Agent-STAR: 长程 Agent RL 的 Scale-Dependency — 同一套设计在不同规模下最优配置不同
现象
7B 模型用最简单的 dense Sum reward + 标准 GRPO 就能在 TravelPlanner 上达到 62.8% 成功率,但 1.5B 模型用同样配置只有 33.1%。反过来,1.5B 用 curriculum reward + ARPO 探索算法能到 37.5%,而 7B 用这些复杂方法反而不如简单配置。
最优的 RL 设计选择,不是固定的,而是随模型规模变化。
为什么重要
我之前在 Post-training 天花板的五个维度 中总结了维度四(信号密度)为 “dense > sparse”。但 Agent-STAR [ref] 的系统实验表明这不是无条件成立的 — scale 是一个调节变量,改变了其他维度的最优值。
Agent-STAR 的实验设计
论文在 TravelPlanner(旅行规划 agent,需要 ~9.2 次工具调用,~10.3K token 轨迹)上系统性地分解了 5 个设计轴:
- Reward shaping: Sum(dense)→ Macro(semi-sparse)→ Success(sparse)→ Curriculum(dense→sparse 渐进)
- Model scaling: Qwen2.5-Instruct 1.5B / 3B / 7B
- Data composition: 100-2K 样本量 × easy/medium/hard 难度混合
- Algorithm selection: GRPO vs DAPO(过滤零方差 batch)vs ARPO(熵引导自适应分支)
- Environmental stability: 0-10% 随机工具执行失败
每次只变一个因素,其余固定。1K 训练样本,SFT 作为 RL 起点。
7 个核心发现
T1: Reward 选择是 scale-dependent 的
| Scale | Best In-Domain | Success Rate |
|---|---|---|
| 1.5B | Curriculum | 34.9% |
| 3B | Curriculum | 49.9% |
| 7B | Sum (dense) | 62.8% |
小模型的 credit assignment 能力弱,需要 curriculum 从 dense 渐进到 sparse。大模型可以直接利用 dense feedback。Sparse Success reward 在任何 scale 下都不是最优的。
T2: Dense reward 的 OOD alignment tax
7B 用 Sum reward 在 TravelPlanner 上最强(62.8%),但 OOD 知识问答平均只有 36.7%,低于 SFT checkpoint 的 41.9%。也就是说 dense reward 让模型过拟合到训练任务格式。Semi-sparse Macro reward 则保持了 OOD 竞争力(42.9%)。
这修正了我之前 “dense > sparse” 的简单结论:dense reward 有过拟合风险,semi-sparse 在 generalization 上更好。
T3: Scaling 一致有益
1.5B → 7B 在 Sum reward 下成功率从 33.1% → 62.8%,几乎翻倍。但收益幅度是 reward-dependent 的(Sum: +15.8% from 3B→7B, Curriculum: +7.1%)。
T4: 数据存在 sweet spot (~1K)
100 → 1K:In-domain 从 37.5% → 49.9%,OOD 也达峰值 35.0%。
1K → 2K:In-domain 仅 +0.9%,OOD 从 35.0% → 32.2%,开始过拟合。
T5: 混合难度防止 reward 稀疏性崩溃
Hard-only 训练导致灾难(25.9% 成功率),因为复杂约束使成功轨迹极其稀少,reward 太稀疏学不到基础 commonsense。Mixed (4:3:3) 达到 49.9%。
这和 PivotRL 的 71% 零信号 turns 观察呼应:当环境本身导致 reward 稀疏,信号密度维度成为瓶颈。
T6: 探索策略的必要性与模型能力反相关
| Scale | GRPO | DAPO | ARPO |
|---|---|---|---|
| 1.5B | 30.1% | 36.9% | 37.5% |
| 3B | 48.2% | 45.6% | 47.5% |
| 7B | 62.8% | 58.4% | 58.3% |
1.5B 需要 ARPO/DAPO 的显式探索辅助,7B 用标准 GRPO 就行且更高效。ARPO 的时间开销比 GRPO 高 ~50%(547 vs 368 GPU hours for 7B)。
T7: 环境稳定性是 agentic RL 的前提
5% 工具错误率 → 性能仅轻微波动。10% → 显著退化。高噪声阻止 agent 完成成功轨迹,从而饿死 reward 信号。
对 Post-training 框架的启示
| 之前的理解 | 修正 |
|---|---|
| 维度四: dense > sparse | dense > sparse 在大模型上成立;小模型需要 curriculum;dense reward 有 OOD 过拟合风险 |
| 维度之间独立 | Scale 是跨维度的调节变量,改变其他维度的最优配置 |
新增的可能维度:
- 环境稳定性(Agentic 特有):工具执行噪声直接降低信号密度
- 探索策略:但这可能只是 “行为 repertoire” 维度的操作化 — 大模型已有丰富的行为 repertoire 所以不需要显式探索
局限性和批判
- 单一环境: 所有结论来自 TravelPlanner,一个模拟旅行规划环境。迁移到 web browsing、code generation 等不同类型的 agent 任务时,scale-dependency 的具体模式可能不同。
- 最大仅 7B: 不知道 70B+ 模型是否继续延续 “大模型用简单方法” 的趋势。
- SFT → RL pipeline: 论文用 ~1.2K SFT 轨迹作为 RL 起点。SFT 数据质量和数量对 RL 起点的影响未被充分探索。
- Curriculum reward 的设计: Curriculum 何时从 dense 切换到 sparse 是基于人工启发式,不是自适应的。这个切换点本身可能也是 scale-dependent 的。
论文自己也承认了前三点局限。第四点是我的观察。
一句话总结
Agent-STAR 通过系统消融实验展示了长程 Agent RL 中各设计维度的 scale-dependency — 最优的 reward density、探索策略在不同模型规模下不同,这修正了我之前"dense > sparse"的简单结论,并提示我的 Post-training 五维度框架需要增加 scale 作为跨维度的调节变量。