SAGE-GRPO — 视频生成 RL 的探索质量问题：流形约束与梯度均衡化

在 LLM 的 RLVR 中，RL 探索相对简单 — 调调 sampling temperature 就行。但视频生成的 GRPO 需要把确定性 ODE 采样器转换为随机 SDE 采样器来获得探索性，这里有一个被忽视的精度问题：一阶近似会在高噪声区注入过量噪声，把生成的 rollout 推到数据流形之外，导致 reward 估计不可靠。

看到了什么

SAGE-GRPO（Tencent Hunyuan, 2603.21872）做了一件很基础的事：认真算了一下 ODE-to-SDE 转换中的噪声方差。

现有方法的噪声标准差：

方法	Σ_t^{1/2}
DanceGRPO	η√(σ_t - σ_{t+1})
FlowGRPO	η√(σ_t/(1-σ_t) · (σ_t - σ_{t+1}))
SAGE-GRPO	η√(-(σ_t - σ_{t+1}) + log((1-σ_{t+1})/(1-σ_t)))

关键差别：SAGE-GRPO 通过精确积分扩散系数得到对数校正项 log((1-σ_{t+1})/(1-σ_t))，而不是用面积近似（一阶截断）。

Geometric interpretation of noise injection strategies

上图很直观：线性 SDE（红色）在高噪声区注入了过多探索噪声，导致 off-manifold drift 和 temporal jitter；manifold-aware SDE（蓝色）的噪声集中在流轨迹附近。

为什么重要

视频生成 RL 一直比 LLM RL 和图像 RL 更不稳定。SAGE-GRPO 指出一个具体原因：探索质量。不是探索太少或太多，而是探索的 noise 注入不精确，导致 rollout 质量下降 → reward 估计不可靠 → 训练不稳定。

这篇论文还揭示了一个 timestep 级别的梯度不平衡：

Gradient norm imbalance

梯度范数随噪声水平变化超过一个数量级 — 低噪声（σ→0）时梯度爆炸，高噪声（σ→1）时梯度消失。这意味着优化被低噪声 timestep 主导，结构性和纹理更新的贡献不平衡。

两个核心组件

1. 微观：精确 SDE + 梯度均衡

精确 SDE 推导：对扩散系数 ε_t = η√(σ_t/(1-σ_t)) 在 [σ_{t+1}, σ_t] 上积分，得到对数校正的噪声方差（公式 5）。

梯度均衡器（Gradient Norm Equalizer）：估计每个 timestep 的梯度尺度 N_t，然后用中位数归一化 S_t = Median / (N_t + ε)。效果：梯度尺度从一个数量级的变化压缩到小常数因子内。

Gradient equalization effect

上图显示加了梯度均衡后，不同 SDE 公式的 reward 曲线都变得更稳定和持续上升。

2. 宏观：双信赖域（Position-Velocity Controller）

三种 KL 策略的对比：

策略	锚点	控制类型	问题
Fixed KL	π₀（初始模型）	位置约束	限制 plasticity，π* 可能远离 π₀
Step-wise KL	π_{k-1}（上一步）	速度约束	累积漂移不受控
Moving KL	π_{k-N}（周期更新）	位置+速度	SAGE-GRPO 方案

Dual Trust Region = Position control（Moving KL 防止长期漂移）+ Velocity control（Step-wise KL 平滑瞬时更新）。论文把这比喻为 PV 控制器（Position-Velocity controller）。

结果中的微妙之处

在 Setting A（averaged rewards，三个维度均等加权）中，CPS w/o KL 的 Overall reward（0.6343）远超 SAGE-GRPO w/ Dual Mov KL（0.2173）。但 SAGE-GRPO 的 Visual metrics（CLIPScore、PickScore）更好。

而在 Setting B（alignment-focused，强调 Text Alignment）中，SAGE-GRPO w/ Dual Mov KL 达到了 Overall 0.8066，远超所有其他方法。

推测：manifold-aware 探索在需要多目标平衡时更有优势 — 因为它的 rollout 质量更高，reward 估计更可靠，不容易被单一维度的 reward hacking 带偏。这和 Astrolabe 的发现一致：VQ-only 训练会把视频优化成静态帧。

User study 也有力：SAGE-GRPO vs DanceGRPO/FlowGRPO/CPS 的 win rate 在 Visual Quality 上 80-86%，Motion Quality 上 71-79%。

和我框架的连接

我的 post-training 五维度框架：

验证器精度
分布匹配（on-policy）
训练格式
信号密度
行为 repertoire

SAGE-GRPO 揭示了一个视频特有但 LLM 中不显著的维度：“探索质量"或"rollout 质量”。在 LLM 中，采样就是 token-by-token 的 softmax sampling，探索精度不是瓶颈。但在视频扩散模型中，ODE-to-SDE 转换的精度直接影响 rollout 质量 → 影响 reward 估计可靠性 → 影响整个 RL 训练的稳定性。

这算新的第六维度吗？还是已有维度的延伸？我倾向于后者 — 它更像是"分布匹配"维度在连续空间（扩散模型）中的特殊实例。LLM 的 on-policy 问题（reference model 和 policy 的分布漂移）在视频中以"off-manifold drift"的形式出现，本质是同一个问题的不同表现。

和 Qwen RLVR 论文的交叉

有趣的平行：

Qwen RLVR（之前的分析）：在 token 级别识别关键位置（Δlog p），提高 credit assignment 的精度
SAGE-GRPO：在 timestep 级别均衡化梯度，提高探索和更新的精度

两者共同指向：RL 的效率提升来自更精确地聚焦信号，而不是简单增加训练量。Qwen 的"只替换 10% token 就恢复完整 RLVR 性能"和 SAGE-GRPO 的"精确 SDE 比一阶近似 SDE 更好"都是这个主题的实例。

局限性和批判

精确 SDE 的理论推导假设扩散系数 ε_t 在积分区间内连续可积，但实际上离散 timestep schedule 可能不满足。论文附录 A.1 有推导，但 step size 很大时（如 20 步采样）离散化误差仍然显著。
梯度均衡器用中位数归一化，这是 robust 的选择，但也意味着放弃了利用梯度幅值信息的可能。低噪声 timestep 的梯度大可能有好的理由（纹理细节确实更需要精细调整），均衡化是否会损失这个信号？论文的消融实验只看了"有 vs 无"，没看中位数 vs 均值 vs 其他归一化方案。
结果解读需要谨慎：Setting A 中 CPS w/o KL 的 Overall reward 远超 SAGE-GRPO，说明"精确探索"并不总是 reward maximization 的最优策略。可能"有控制地偏离流形"在某些 reward 配置下反而有用（类似 exploration-exploitation 的 tradeoff）。

视频生成 RL 已经从"是否可行"阶段进入了"如何做好"阶段。和 LLM RLVR 相比，视频的独特挑战：(1) 连续潜空间中的探索精度，(2) timestep 级的梯度不平衡，(3) 多维 reward 的平衡。SAGE-GRPO 和 Astrolabe 分别从不同角度回应这些挑战。