在 LLM 的 RLVR 中,RL 探索相对简单 — 调调 sampling temperature 就行。但视频生成的 GRPO 需要把确定性 ODE 采样器转换为随机 SDE 采样器来获得探索性,这里有一个被忽视的精度问题:一阶近似会在高噪声区注入过量噪声,把生成的 rollout 推到数据流形之外,导致 reward 估计不可靠。

看到了什么

SAGE-GRPO(Tencent Hunyuan, 2603.21872)做了一件很基础的事:认真算了一下 ODE-to-SDE 转换中的噪声方差。

现有方法的噪声标准差:

方法 Σ_t^{1/2}
DanceGRPO η√(σ_t - σ_{t+1})
FlowGRPO η√(σ_t/(1-σ_t) · (σ_t - σ_{t+1}))
SAGE-GRPO η√(-(σ_t - σ_{t+1}) + log((1-σ_{t+1})/(1-σ_t)))

关键差别:SAGE-GRPO 通过精确积分扩散系数得到对数校正项 log((1-σ_{t+1})/(1-σ_t)),而不是用面积近似(一阶截断)。

Geometric interpretation of noise injection strategies

上图很直观:线性 SDE(红色)在高噪声区注入了过多探索噪声,导致 off-manifold drift 和 temporal jitter;manifold-aware SDE(蓝色)的噪声集中在流轨迹附近。

为什么重要

视频生成 RL 一直比 LLM RL 和图像 RL 更不稳定。SAGE-GRPO 指出一个具体原因:探索质量。不是探索太少或太多,而是探索的 noise 注入不精确,导致 rollout 质量下降 → reward 估计不可靠 → 训练不稳定。

这篇论文还揭示了一个 timestep 级别的梯度不平衡:

Gradient norm imbalance

梯度范数随噪声水平变化超过一个数量级 — 低噪声(σ→0)时梯度爆炸,高噪声(σ→1)时梯度消失。这意味着优化被低噪声 timestep 主导,结构性和纹理更新的贡献不平衡。

两个核心组件

1. 微观:精确 SDE + 梯度均衡

精确 SDE 推导:对扩散系数 ε_t = η√(σ_t/(1-σ_t)) 在 [σ_{t+1}, σ_t] 上积分,得到对数校正的噪声方差(公式 5)。

梯度均衡器(Gradient Norm Equalizer):估计每个 timestep 的梯度尺度 N_t,然后用中位数归一化 S_t = Median / (N_t + ε)。效果:梯度尺度从一个数量级的变化压缩到小常数因子内。

Gradient equalization effect

上图显示加了梯度均衡后,不同 SDE 公式的 reward 曲线都变得更稳定和持续上升。

2. 宏观:双信赖域(Position-Velocity Controller)

三种 KL 策略的对比:

策略 锚点 控制类型 问题
Fixed KL π₀(初始模型) 位置约束 限制 plasticity,π* 可能远离 π₀
Step-wise KL π_{k-1}(上一步) 速度约束 累积漂移不受控
Moving KL π_{k-N}(周期更新) 位置+速度 SAGE-GRPO 方案

Dual Trust Region = Position control(Moving KL 防止长期漂移)+ Velocity control(Step-wise KL 平滑瞬时更新)。论文把这比喻为 PV 控制器(Position-Velocity controller)。

结果中的微妙之处

在 Setting A(averaged rewards,三个维度均等加权)中,CPS w/o KL 的 Overall reward(0.6343)远超 SAGE-GRPO w/ Dual Mov KL(0.2173)。但 SAGE-GRPO 的 Visual metrics(CLIPScore、PickScore)更好。

而在 Setting B(alignment-focused,强调 Text Alignment)中,SAGE-GRPO w/ Dual Mov KL 达到了 Overall 0.8066,远超所有其他方法。

推测:manifold-aware 探索在需要多目标平衡时更有优势 — 因为它的 rollout 质量更高,reward 估计更可靠,不容易被单一维度的 reward hacking 带偏。这和 Astrolabe 的发现一致:VQ-only 训练会把视频优化成静态帧。

User study 也有力:SAGE-GRPO vs DanceGRPO/FlowGRPO/CPS 的 win rate 在 Visual Quality 上 80-86%,Motion Quality 上 71-79%。

和我框架的连接

我的 post-training 五维度框架:

  1. 验证器精度
  2. 分布匹配(on-policy)
  3. 训练格式
  4. 信号密度
  5. 行为 repertoire

SAGE-GRPO 揭示了一个视频特有但 LLM 中不显著的维度:“探索质量"或"rollout 质量”。在 LLM 中,采样就是 token-by-token 的 softmax sampling,探索精度不是瓶颈。但在视频扩散模型中,ODE-to-SDE 转换的精度直接影响 rollout 质量 → 影响 reward 估计可靠性 → 影响整个 RL 训练的稳定性。

这算新的第六维度吗?还是已有维度的延伸?我倾向于后者 — 它更像是"分布匹配"维度在连续空间(扩散模型)中的特殊实例。LLM 的 on-policy 问题(reference model 和 policy 的分布漂移)在视频中以"off-manifold drift"的形式出现,本质是同一个问题的不同表现。

和 Qwen RLVR 论文的交叉

有趣的平行:

  • Qwen RLVR之前的分析):在 token 级别识别关键位置(Δlog p),提高 credit assignment 的精度
  • SAGE-GRPO:在 timestep 级别均衡化梯度,提高探索和更新的精度

两者共同指向:RL 的效率提升来自更精确地聚焦信号,而不是简单增加训练量。Qwen 的"只替换 10% token 就恢复完整 RLVR 性能"和 SAGE-GRPO 的"精确 SDE 比一阶近似 SDE 更好"都是这个主题的实例。

局限性和批判

  1. 精确 SDE 的理论推导假设扩散系数 ε_t 在积分区间内连续可积,但实际上离散 timestep schedule 可能不满足。论文附录 A.1 有推导,但 step size 很大时(如 20 步采样)离散化误差仍然显著。

  2. 梯度均衡器用中位数归一化,这是 robust 的选择,但也意味着放弃了利用梯度幅值信息的可能。低噪声 timestep 的梯度大可能有好的理由(纹理细节确实更需要精细调整),均衡化是否会损失这个信号?论文的消融实验只看了"有 vs 无",没看中位数 vs 均值 vs 其他归一化方案。

  3. 结果解读需要谨慎:Setting A 中 CPS w/o KL 的 Overall reward 远超 SAGE-GRPO,说明"精确探索"并不总是 reward maximization 的最优策略。可能"有控制地偏离流形"在某些 reward 配置下反而有用(类似 exploration-exploitation 的 tradeoff)。


视频生成 RL 已经从"是否可行"阶段进入了"如何做好"阶段。和 LLM RLVR 相比,视频的独特挑战:(1) 连续潜空间中的探索精度,(2) timestep 级的梯度不平衡,(3) 多维 reward 的平衡。SAGE-GRPO 和 Astrolabe 分别从不同角度回应这些挑战。