Agent-STAR: 长程 Agent RL 的 Scale-Dependency — 同一套设计在不同规模下最优配置不同

现象

7B 模型用最简单的 dense Sum reward + 标准 GRPO 就能在 TravelPlanner 上达到 62.8% 成功率，但 1.5B 模型用同样配置只有 33.1%。反过来，1.5B 用 curriculum reward + ARPO 探索算法能到 37.5%，而 7B 用这些复杂方法反而不如简单配置。

最优的 RL 设计选择，不是固定的，而是随模型规模变化。

为什么重要

我之前在 Post-training 天花板的五个维度中总结了维度四（信号密度）为 “dense > sparse”。但 Agent-STAR [ref] 的系统实验表明这不是无条件成立的 — scale 是一个调节变量，改变了其他维度的最优值。

Agent-STAR 的实验设计

论文在 TravelPlanner（旅行规划 agent，需要 ~9.2 次工具调用，~10.3K token 轨迹）上系统性地分解了 5 个设计轴：

Reward shaping: Sum（dense）→ Macro（semi-sparse）→ Success（sparse）→ Curriculum（dense→sparse 渐进）
Model scaling: Qwen2.5-Instruct 1.5B / 3B / 7B
Data composition: 100-2K 样本量 × easy/medium/hard 难度混合
Algorithm selection: GRPO vs DAPO（过滤零方差 batch）vs ARPO（熵引导自适应分支）
Environmental stability: 0-10% 随机工具执行失败

每次只变一个因素，其余固定。1K 训练样本，SFT 作为 RL 起点。

7 个核心发现

T1: Reward 选择是 scale-dependent 的

Scale	Best In-Domain	Success Rate
1.5B	Curriculum	34.9%
3B	Curriculum	49.9%
7B	Sum (dense)	62.8%

小模型的 credit assignment 能力弱，需要 curriculum 从 dense 渐进到 sparse。大模型可以直接利用 dense feedback。Sparse Success reward 在任何 scale 下都不是最优的。

T2: Dense reward 的 OOD alignment tax

7B 用 Sum reward 在 TravelPlanner 上最强（62.8%），但 OOD 知识问答平均只有 36.7%，低于 SFT checkpoint 的 41.9%。也就是说 dense reward 让模型过拟合到训练任务格式。Semi-sparse Macro reward 则保持了 OOD 竞争力（42.9%）。

这修正了我之前 “dense > sparse” 的简单结论：dense reward 有过拟合风险，semi-sparse 在 generalization 上更好。

T3: Scaling 一致有益

1.5B → 7B 在 Sum reward 下成功率从 33.1% → 62.8%，几乎翻倍。但收益幅度是 reward-dependent 的（Sum: +15.8% from 3B→7B, Curriculum: +7.1%）。

T4: 数据存在 sweet spot (~1K)

100 → 1K：In-domain 从 37.5% → 49.9%，OOD 也达峰值 35.0%。
1K → 2K：In-domain 仅 +0.9%，OOD 从 35.0% → 32.2%，开始过拟合。

T5: 混合难度防止 reward 稀疏性崩溃

Hard-only 训练导致灾难（25.9% 成功率），因为复杂约束使成功轨迹极其稀少，reward 太稀疏学不到基础 commonsense。Mixed (4:3:3) 达到 49.9%。

这和 PivotRL 的 71% 零信号 turns 观察呼应：当环境本身导致 reward 稀疏，信号密度维度成为瓶颈。

T6: 探索策略的必要性与模型能力反相关

Scale	GRPO	DAPO	ARPO
1.5B	30.1%	36.9%	37.5%
3B	48.2%	45.6%	47.5%
7B	62.8%	58.4%	58.3%

1.5B 需要 ARPO/DAPO 的显式探索辅助，7B 用标准 GRPO 就行且更高效。ARPO 的时间开销比 GRPO 高 ~50%（547 vs 368 GPU hours for 7B）。

T7: 环境稳定性是 agentic RL 的前提

5% 工具错误率 → 性能仅轻微波动。10% → 显著退化。高噪声阻止 agent 完成成功轨迹，从而饿死 reward 信号。

对 Post-training 框架的启示

之前的理解	修正
维度四: dense > sparse	dense > sparse 在大模型上成立；小模型需要 curriculum；dense reward 有 OOD 过拟合风险
维度之间独立	Scale 是跨维度的调节变量，改变其他维度的最优配置

新增的可能维度：

环境稳定性（Agentic 特有）：工具执行噪声直接降低信号密度
探索策略：但这可能只是 “行为 repertoire” 维度的操作化 — 大模型已有丰富的行为 repertoire 所以不需要显式探索

局限性和批判

单一环境: 所有结论来自 TravelPlanner，一个模拟旅行规划环境。迁移到 web browsing、code generation 等不同类型的 agent 任务时，scale-dependency 的具体模式可能不同。
最大仅 7B: 不知道 70B+ 模型是否继续延续 “大模型用简单方法” 的趋势。
SFT → RL pipeline: 论文用 ~1.2K SFT 轨迹作为 RL 起点。SFT 数据质量和数量对 RL 起点的影响未被充分探索。
Curriculum reward 的设计: Curriculum 何时从 dense 切换到 sparse 是基于人工启发式，不是自适应的。这个切换点本身可能也是 scale-dependent 的。

论文自己也承认了前三点局限。第四点是我的观察。

一句话总结

Agent-STAR 通过系统消融实验展示了长程 Agent RL 中各设计维度的 scale-dependency — 最优的 reward density、探索策略在不同模型规模下不同，这修正了我之前"dense > sparse"的简单结论，并提示我的 Post-training 五维度框架需要增加 scale 作为跨维度的调节变量。