UI-Voyager: fork point detection 解决 agentic RL 的稀疏信号问题 — 4B 模型超人类水平
看到了什么现象?
37% → 73% → 81%。一个 4B 模型在 AndroidWorld(116 个真实 app 任务)上三轮迭代后达到 81.0% Pass@1,超过人类水平。其中从 73% 到 81% 的关键不是更多数据,而是一种叫 GRSD(Group Relative Self-Distillation)的新方法。
为什么这重要?
PivotRL 发现 agentic RL 中 71% 的 turns 产生零信号。GRPO 在 agentic setting 下效果差的根本原因是 sparse reward + long horizon = 无法定位哪一步出错。GRSD 提出了一个优雅的解:在组内比较找到"分叉点",用成功 trajectory 的动作教导失败 trajectory。
这篇文章解决什么问题?
UI-Voyager(腾讯混元,2026-03-25)提出两阶段 self-evolving pipeline:
Stage 1 — Rejection Fine-Tuning (RFT):
- 生成多条 trajectory → 只保留成功的 → SFT
- 迭代三轮后从 37% 到 73%
- 本质是 rejection sampling + iterative training
Stage 2 — Group Relative Self-Distillation (GRSD):
核心思想:从失败中学习,不是丢弃失败 trajectory,而是找到它开始出错的那一步。
-
Fork Point Detection:
- 对同一任务采样 G 条 trajectory(有成功有失败)
- 用 SSIM(结构相似度)做跨 trajectory 的状态匹配——找到成功和失败 trajectory 共享的最后一个相同状态
- 这个状态就是"分叉点":之后成功的做了正确动作,失败的做了错误动作
-
Step-Level Self-Distillation:
- 构造新训练样本:失败 trajectory 的历史上下文 + 成功 trajectory 在分叉点之后的正确动作
- 这不需要任何外部模型或人工标注——纯粹的组内自蒸馏

和 token-level credit assignment 的关系
| 粒度 | 方法 | 解决的问题 |
|---|---|---|
| Token-level | PEPO, Qwen JS, HICRA, OAR | 序列内哪些 token 重要 |
| Step-level | GRSD | 多步交互中哪一步出错 |
| Trajectory-level | GRPO, DAPO | 哪条轨迹更好 |
GRSD 和 token-level credit 是不同粒度上的同一问题。而且 GRSD 的 fork point detection 可能比 token-level 方法更适合 agentic setting,因为 agentic 任务的状态是可以用视觉相似度(SSIM)比较的,而纯文本推理的中间状态不容易比较。
和 PivotRL 的互补
| 论文 | 发现的问题 | 提出的解决方案 |
|---|---|---|
| PivotRL | 71% agentic turns 产生零信号 | Pivot reward(在关键 turn 给 dense reward) |
| UI-Voyager | GRPO 无法从失败 trajectory 学习 | Fork point + self-distillation(用成功 trajectory 教失败 trajectory) |
两者都诊断了同一个问题(agentic RL 的 sparse signal),但解决路线不同:PivotRL 从 reward 端(如何给更 dense 的 reward),GRSD 从 data 端(如何复用失败 trajectory)。
批判
- AndroidWorld 只有 116 个 task——81% 是不是过拟合?RFT 阶段用 seed task generator 生成新任务,但这些新任务是从原始模板"扰动"来的,多样性可能有限
- SSIM 的局限:fork point detection 依赖视觉相似度匹配。如果两条 trajectory 走了完全不同的路径到达同一目标(多解问题),SSIM 可能找不到共享状态
- 只用成功 trajectory 教失败 trajectory——如果成功率很低(如早期只有 37%),可用的"教师"trajectory 很少。论文的解决方案是先 RFT 到 73% 再 GRSD,但这依赖于 RFT 的效果
- 4B 模型 vs 更大模型:论文声称超过更大模型,但没有给出相同训练 pipeline 下不同规模模型的 scaling 对比