SAGE-GRPO — 视频生成 RL 的探索质量问题:流形约束与梯度均衡化
在 LLM 的 RLVR 中,RL 探索相对简单 — 调调 sampling temperature 就行。但视频生成的 GRPO 需要把确定性 ODE 采样器转换为随机 SDE 采样器来获得探索性,这里有一个被忽视的精度问题:一阶近似会在高噪声区注入过量噪声,把生成的 rollout 推到数据流形之外,导致 reward 估计不可靠。
看到了什么
SAGE-GRPO(Tencent Hunyuan, 2603.21872)做了一件很基础的事:认真算了一下 ODE-to-SDE 转换中的噪声方差。
现有方法的噪声标准差:
| 方法 | Σ_t^{1/2} |
|---|---|
| DanceGRPO | η√(σ_t - σ_{t+1}) |
| FlowGRPO | η√(σ_t/(1-σ_t) · (σ_t - σ_{t+1})) |
| SAGE-GRPO | η√(-(σ_t - σ_{t+1}) + log((1-σ_{t+1})/(1-σ_t))) |
关键差别:SAGE-GRPO 通过精确积分扩散系数得到对数校正项 log((1-σ_{t+1})/(1-σ_t)),而不是用面积近似(一阶截断)。

上图很直观:线性 SDE(红色)在高噪声区注入了过多探索噪声,导致 off-manifold drift 和 temporal jitter;manifold-aware SDE(蓝色)的噪声集中在流轨迹附近。
为什么重要
视频生成 RL 一直比 LLM RL 和图像 RL 更不稳定。SAGE-GRPO 指出一个具体原因:探索质量。不是探索太少或太多,而是探索的 noise 注入不精确,导致 rollout 质量下降 → reward 估计不可靠 → 训练不稳定。
这篇论文还揭示了一个 timestep 级别的梯度不平衡:

梯度范数随噪声水平变化超过一个数量级 — 低噪声(σ→0)时梯度爆炸,高噪声(σ→1)时梯度消失。这意味着优化被低噪声 timestep 主导,结构性和纹理更新的贡献不平衡。
两个核心组件
1. 微观:精确 SDE + 梯度均衡
精确 SDE 推导:对扩散系数 ε_t = η√(σ_t/(1-σ_t)) 在 [σ_{t+1}, σ_t] 上积分,得到对数校正的噪声方差(公式 5)。
梯度均衡器(Gradient Norm Equalizer):估计每个 timestep 的梯度尺度 N_t,然后用中位数归一化 S_t = Median / (N_t + ε)。效果:梯度尺度从一个数量级的变化压缩到小常数因子内。

上图显示加了梯度均衡后,不同 SDE 公式的 reward 曲线都变得更稳定和持续上升。
2. 宏观:双信赖域(Position-Velocity Controller)
三种 KL 策略的对比:
| 策略 | 锚点 | 控制类型 | 问题 |
|---|---|---|---|
| Fixed KL | π₀(初始模型) | 位置约束 | 限制 plasticity,π* 可能远离 π₀ |
| Step-wise KL | π_{k-1}(上一步) | 速度约束 | 累积漂移不受控 |
| Moving KL | π_{k-N}(周期更新) | 位置+速度 | SAGE-GRPO 方案 |
Dual Trust Region = Position control(Moving KL 防止长期漂移)+ Velocity control(Step-wise KL 平滑瞬时更新)。论文把这比喻为 PV 控制器(Position-Velocity controller)。
结果中的微妙之处
在 Setting A(averaged rewards,三个维度均等加权)中,CPS w/o KL 的 Overall reward(0.6343)远超 SAGE-GRPO w/ Dual Mov KL(0.2173)。但 SAGE-GRPO 的 Visual metrics(CLIPScore、PickScore)更好。
而在 Setting B(alignment-focused,强调 Text Alignment)中,SAGE-GRPO w/ Dual Mov KL 达到了 Overall 0.8066,远超所有其他方法。
推测:manifold-aware 探索在需要多目标平衡时更有优势 — 因为它的 rollout 质量更高,reward 估计更可靠,不容易被单一维度的 reward hacking 带偏。这和 Astrolabe 的发现一致:VQ-only 训练会把视频优化成静态帧。
User study 也有力:SAGE-GRPO vs DanceGRPO/FlowGRPO/CPS 的 win rate 在 Visual Quality 上 80-86%,Motion Quality 上 71-79%。
和我框架的连接
我的 post-training 五维度框架:
- 验证器精度
- 分布匹配(on-policy)
- 训练格式
- 信号密度
- 行为 repertoire
SAGE-GRPO 揭示了一个视频特有但 LLM 中不显著的维度:“探索质量"或"rollout 质量”。在 LLM 中,采样就是 token-by-token 的 softmax sampling,探索精度不是瓶颈。但在视频扩散模型中,ODE-to-SDE 转换的精度直接影响 rollout 质量 → 影响 reward 估计可靠性 → 影响整个 RL 训练的稳定性。
这算新的第六维度吗?还是已有维度的延伸?我倾向于后者 — 它更像是"分布匹配"维度在连续空间(扩散模型)中的特殊实例。LLM 的 on-policy 问题(reference model 和 policy 的分布漂移)在视频中以"off-manifold drift"的形式出现,本质是同一个问题的不同表现。
和 Qwen RLVR 论文的交叉
有趣的平行:
- Qwen RLVR(之前的分析):在 token 级别识别关键位置(Δlog p),提高 credit assignment 的精度
- SAGE-GRPO:在 timestep 级别均衡化梯度,提高探索和更新的精度
两者共同指向:RL 的效率提升来自更精确地聚焦信号,而不是简单增加训练量。Qwen 的"只替换 10% token 就恢复完整 RLVR 性能"和 SAGE-GRPO 的"精确 SDE 比一阶近似 SDE 更好"都是这个主题的实例。
局限性和批判
-
精确 SDE 的理论推导假设扩散系数 ε_t 在积分区间内连续可积,但实际上离散 timestep schedule 可能不满足。论文附录 A.1 有推导,但 step size 很大时(如 20 步采样)离散化误差仍然显著。
-
梯度均衡器用中位数归一化,这是 robust 的选择,但也意味着放弃了利用梯度幅值信息的可能。低噪声 timestep 的梯度大可能有好的理由(纹理细节确实更需要精细调整),均衡化是否会损失这个信号?论文的消融实验只看了"有 vs 无",没看中位数 vs 均值 vs 其他归一化方案。
-
结果解读需要谨慎:Setting A 中 CPS w/o KL 的 Overall reward 远超 SAGE-GRPO,说明"精确探索"并不总是 reward maximization 的最优策略。可能"有控制地偏离流形"在某些 reward 配置下反而有用(类似 exploration-exploitation 的 tradeoff)。
视频生成 RL 已经从"是否可行"阶段进入了"如何做好"阶段。和 LLM RLVR 相比,视频的独特挑战:(1) 连续潜空间中的探索精度,(2) timestep 级的梯度不平衡,(3) 多维 reward 的平衡。SAGE-GRPO 和 Astrolabe 分别从不同角度回应这些挑战。