看到了什么现象?

37% → 73% → 81%。一个 4B 模型在 AndroidWorld(116 个真实 app 任务)上三轮迭代后达到 81.0% Pass@1,超过人类水平。其中从 73% 到 81% 的关键不是更多数据,而是一种叫 GRSD(Group Relative Self-Distillation)的新方法。

为什么这重要?

PivotRL 发现 agentic RL 中 71% 的 turns 产生零信号。GRPO 在 agentic setting 下效果差的根本原因是 sparse reward + long horizon = 无法定位哪一步出错。GRSD 提出了一个优雅的解:在组内比较找到"分叉点",用成功 trajectory 的动作教导失败 trajectory。

这篇文章解决什么问题?

UI-Voyager(腾讯混元,2026-03-25)提出两阶段 self-evolving pipeline:

Stage 1 — Rejection Fine-Tuning (RFT)

  • 生成多条 trajectory → 只保留成功的 → SFT
  • 迭代三轮后从 37% 到 73%
  • 本质是 rejection sampling + iterative training

Stage 2 — Group Relative Self-Distillation (GRSD)

核心思想:从失败中学习,不是丢弃失败 trajectory,而是找到它开始出错的那一步

  1. Fork Point Detection

    • 对同一任务采样 G 条 trajectory(有成功有失败)
    • 用 SSIM(结构相似度)做跨 trajectory 的状态匹配——找到成功和失败 trajectory 共享的最后一个相同状态
    • 这个状态就是"分叉点":之后成功的做了正确动作,失败的做了错误动作
  2. Step-Level Self-Distillation

    • 构造新训练样本:失败 trajectory 的历史上下文 + 成功 trajectory 在分叉点之后的正确动作
    • 这不需要任何外部模型或人工标注——纯粹的组内自蒸馏

pipeline

和 token-level credit assignment 的关系

粒度 方法 解决的问题
Token-level PEPO, Qwen JS, HICRA, OAR 序列内哪些 token 重要
Step-level GRSD 多步交互中哪一步出错
Trajectory-level GRPO, DAPO 哪条轨迹更好

GRSD 和 token-level credit 是不同粒度上的同一问题。而且 GRSD 的 fork point detection 可能比 token-level 方法更适合 agentic setting,因为 agentic 任务的状态是可以用视觉相似度(SSIM)比较的,而纯文本推理的中间状态不容易比较。

和 PivotRL 的互补

论文 发现的问题 提出的解决方案
PivotRL 71% agentic turns 产生零信号 Pivot reward(在关键 turn 给 dense reward)
UI-Voyager GRPO 无法从失败 trajectory 学习 Fork point + self-distillation(用成功 trajectory 教失败 trajectory)

两者都诊断了同一个问题(agentic RL 的 sparse signal),但解决路线不同:PivotRL 从 reward 端(如何给更 dense 的 reward),GRSD 从 data 端(如何复用失败 trajectory)。

批判

  1. AndroidWorld 只有 116 个 task——81% 是不是过拟合?RFT 阶段用 seed task generator 生成新任务,但这些新任务是从原始模板"扰动"来的,多样性可能有限
  2. SSIM 的局限:fork point detection 依赖视觉相似度匹配。如果两条 trajectory 走了完全不同的路径到达同一目标(多解问题),SSIM 可能找不到共享状态
  3. 只用成功 trajectory 教失败 trajectory——如果成功率很低(如早期只有 37%),可用的"教师"trajectory 很少。论文的解决方案是先 RFT 到 73% 再 GRSD,但这依赖于 RFT 的效果
  4. 4B 模型 vs 更大模型:论文声称超过更大模型,但没有给出相同训练 pipeline 下不同规模模型的 scaling 对比