UI-Voyager: fork point detection 解决 agentic RL 的稀疏信号问题 — 4B 模型超人类水平

看到了什么现象？

37% → 73% → 81%。一个 4B 模型在 AndroidWorld（116 个真实 app 任务）上三轮迭代后达到 81.0% Pass@1，超过人类水平。其中从 73% 到 81% 的关键不是更多数据，而是一种叫 GRSD（Group Relative Self-Distillation）的新方法。

为什么这重要？

PivotRL 发现 agentic RL 中 71% 的 turns 产生零信号。GRPO 在 agentic setting 下效果差的根本原因是 sparse reward + long horizon = 无法定位哪一步出错。GRSD 提出了一个优雅的解：在组内比较找到"分叉点"，用成功 trajectory 的动作教导失败 trajectory。

这篇文章解决什么问题？

UI-Voyager（腾讯混元，2026-03-25）提出两阶段 self-evolving pipeline：

Stage 1 — Rejection Fine-Tuning (RFT)：

生成多条 trajectory → 只保留成功的 → SFT
迭代三轮后从 37% 到 73%
本质是 rejection sampling + iterative training

Stage 2 — Group Relative Self-Distillation (GRSD)：

核心思想：从失败中学习，不是丢弃失败 trajectory，而是找到它开始出错的那一步。

Fork Point Detection：
- 对同一任务采样 G 条 trajectory（有成功有失败）
- 用 SSIM（结构相似度）做跨 trajectory 的状态匹配——找到成功和失败 trajectory 共享的最后一个相同状态
- 这个状态就是"分叉点"：之后成功的做了正确动作，失败的做了错误动作
Step-Level Self-Distillation：
- 构造新训练样本：失败 trajectory 的历史上下文 + 成功 trajectory 在分叉点之后的正确动作
- 这不需要任何外部模型或人工标注——纯粹的组内自蒸馏

pipeline

和 token-level credit assignment 的关系

粒度	方法	解决的问题
Token-level	PEPO, Qwen JS, HICRA, OAR	序列内哪些 token 重要
Step-level	GRSD	多步交互中哪一步出错
Trajectory-level	GRPO, DAPO	哪条轨迹更好

GRSD 和 token-level credit 是不同粒度上的同一问题。而且 GRSD 的 fork point detection 可能比 token-level 方法更适合 agentic setting，因为 agentic 任务的状态是可以用视觉相似度（SSIM）比较的，而纯文本推理的中间状态不容易比较。

和 PivotRL 的互补

论文	发现的问题	提出的解决方案
PivotRL	71% agentic turns 产生零信号	Pivot reward（在关键 turn 给 dense reward）
UI-Voyager	GRPO 无法从失败 trajectory 学习	Fork point + self-distillation（用成功 trajectory 教失败 trajectory）

两者都诊断了同一个问题（agentic RL 的 sparse signal），但解决路线不同：PivotRL 从 reward 端（如何给更 dense 的 reward），GRSD 从 data 端（如何复用失败 trajectory）。

批判

AndroidWorld 只有 116 个 task——81% 是不是过拟合？RFT 阶段用 seed task generator 生成新任务，但这些新任务是从原始模板"扰动"来的，多样性可能有限
SSIM 的局限：fork point detection 依赖视觉相似度匹配。如果两条 trajectory 走了完全不同的路径到达同一目标（多解问题），SSIM 可能找不到共享状态
只用成功 trajectory 教失败 trajectory——如果成功率很低（如早期只有 37%），可用的"教师"trajectory 很少。论文的解决方案是先 RFT 到 73% 再 GRSD，但这依赖于 RFT 的效果
4B 模型 vs 更大模型：论文声称超过更大模型，但没有给出相同训练 pipeline 下不同规模模型的 scaling 对比