蒸馏后的自回归(AR)视频模型已经能做实时流式生成了,但生成质量和人类偏好有 gap。怎么用 RL 对齐这些模型?已有的方法要么太贵(重新蒸馏),要么内存爆炸(reverse-process RL 需要存完整轨迹)。Astrolabe 提出了一条不同的路线。

核心问题

对蒸馏后的 AR 视频模型做 RL 对齐,有两个主要瓶颈:

  1. Reverse-process RL(如 DanceGRPOFlow-GRPO)需要沿采样轨迹估计 log-probability,这和特定 solver 耦合,而且要存储中间轨迹状态,内存开销巨大
  2. Reward-weighted distillation(如 Reward Forcing)只是用 reward 加权监督蒸馏损失,没有主动探索机制,也不惩罚差样本

Forward-Process RL

Astrolabe(HKUST + JD Explore Academy)采用了 forward-process RL 路线,基于 DiffusionNFT 的 negative-aware fine-tuning:

  • 给定生成的 clean sample x 和其 normalized reward r̃,构造 noisy 版本 xᵗ
  • 用当前策略 vθ 和旧策略 vθ_old 通过插值构造隐式正/负策略:v⁺ = (1-β)vθ_old + βvθ,v⁻ = (1+β)vθ_old - βvθ
  • 损失函数对比两个隐式策略和目标 velocity:L = r̃||v⁺ - vtarget||² + (1-r̃)||v⁻ - vtarget||²

关键优势:只需要 clean 的生成终点,不需要 reverse-process unrolling 或完整轨迹存储。Solver-agnostic。

长视频的 Streaming 训练

对 30 秒以上的长视频做 RL,Astrolabe 用了两个工程方案:

  1. Rolling KV-Cache:固定大小的 context window = frame sink(S 帧永久保留,锚定全局语义)+ rolling window(L 帧最近帧)。内存恒定,和视频长度无关。
  2. Streaming Long Tuning:先前向 pass 积累完整 KV-cache,到达训练窗口时 detach 历史 context 的梯度,只在当前 clip window 反传。模拟真实推理动态的同时保持内存可控。

Reward Hacking 的缓解

论文中一个特别有价值的消融实验:

单一 Reward HPSv3↑ MQ↑ VBench↑
VQ only 10.92 1.58 83.21
MQ only 9.31 1.82 83.67
TA only 9.42 1.62 84.25
All (Ours) 10.84 1.80 84.46

VQ-only 训练把视频优化成了静态帧 — HPSv3(image quality)暴涨但 MQ(motion quality)暴跌到 1.58。这是 Goodhart’s Law 在视频生成中的又一个实例:优化单一美学指标,模型学到的捷径是"不要动"。

三 reward 的组合:Visual Quality(HPSv3 top 30% frames)+ Motion Quality(灰度 VideoAlign)+ Text Alignment(RGB VideoAlign)。

另外用 uncertainty-aware selective KL penalty:不是对所有样本统一 KL 正则,而是只惩罚多个 reward model rank 不一致(high uncertainty)的样本。这比 uniform KL 效果更好。

定量结果

在 VBench 上:

  • Self-Forcing + Astrolabe:HPSv3 从 9.36 → 10.72(+1.36)
  • Causal Forcing + Astrolabe:HPSv3 从 9.48 → 10.84(+1.36),MQ 从 1.69 → 1.80
  • LongLive + Astrolabe:HPSv3 从 9.38 → 11.03(+1.65)

48 张 H200,LoRA r=256,每 epoch 48 prompts × 24 candidate clips。

和我之前的框架的连接

和 post-training 五维度框架的关系:

  • 维度一(验证器精度):Astrolabe 用 multi-reward 缓解单一验证器偏差,本质上是通过集成增加验证器的鲁棒性
  • 维度三(训练格式):forward-process vs reverse-process 是训练格式的选择,影响效率而非能力上限
  • 维度五(行为 repertoire):论文 Discussion 明确说"RL cannot arbitrarily instantiate capabilities absent from the distilled base model"

局限性(论文自述)

  1. 依赖 reward model 质量:当前开源 video reward model 对复杂物理、长时因果、多实体交互的评估能力有限
  2. base model 的能力天花板:RL 只能优化已有知识的呈现,不能突破架构容量的根本限制

批判性思考

  • 这篇论文的工程贡献很扎实(53 页,37 图),消融实验很充分
  • 但 forward-process RL 的理论基础(DiffusionNFT)假设 β 参数的隐式策略分解在蒸馏模型(只有 4 步 timestep)下仍然有效,论文附录有证明但实际上 discretization gap 很大,他们也承认需要移除 adaptive weighting 来避免梯度爆炸
  • Semantic 维度提升微弱(VBench Semantic 在 Causal Forcing 上从 81.84 → 81.72,略降),RL 主要提升了 aesthetic 和 motion 质量,对语义理解帮助有限 — 这和"RL 放大不创造"的观点一致
  • 这篇和 DanceGRPO/Flow-GRPO 的路线之争很有意思:reverse-process 更 principled(直接估计策略梯度),forward-process 更 pragmatic(省内存省计算)。最终可能是工程 tradeoff 而非哪个"更正确"

视频生成 RL 对齐领域正在快速成熟。Awesome-RL-for-Video-Generation 仓库(428 stars)显示仅 2026 年 3 月就有十几篇新论文。和 LLM 的 RL post-training 相比,视频生成的独特挑战在于 reward 的多维性(美学 vs 运动 vs 语义)和 temporal credit assignment。