Astrolabe — 视频生成 RL 对齐的 forward-process 路线

蒸馏后的自回归（AR）视频模型已经能做实时流式生成了，但生成质量和人类偏好有 gap。怎么用 RL 对齐这些模型？已有的方法要么太贵（重新蒸馏），要么内存爆炸（reverse-process RL 需要存完整轨迹）。Astrolabe 提出了一条不同的路线。

核心问题

对蒸馏后的 AR 视频模型做 RL 对齐，有两个主要瓶颈：

Reverse-process RL（如 DanceGRPO、Flow-GRPO）需要沿采样轨迹估计 log-probability，这和特定 solver 耦合，而且要存储中间轨迹状态，内存开销巨大
Reward-weighted distillation（如 Reward Forcing）只是用 reward 加权监督蒸馏损失，没有主动探索机制，也不惩罚差样本

Forward-Process RL

Astrolabe（HKUST + JD Explore Academy）采用了 forward-process RL 路线，基于 DiffusionNFT 的 negative-aware fine-tuning：

给定生成的 clean sample x 和其 normalized reward r̃，构造 noisy 版本 xᵗ
用当前策略 vθ 和旧策略 vθ_old 通过插值构造隐式正/负策略：v⁺ = (1-β)vθ_old + βvθ，v⁻ = (1+β)vθ_old - βvθ
损失函数对比两个隐式策略和目标 velocity：L = r̃||v⁺ - vtarget||² + (1-r̃)||v⁻ - vtarget||²

关键优势：只需要 clean 的生成终点，不需要 reverse-process unrolling 或完整轨迹存储。Solver-agnostic。

长视频的 Streaming 训练

对 30 秒以上的长视频做 RL，Astrolabe 用了两个工程方案：

Rolling KV-Cache：固定大小的 context window = frame sink（S 帧永久保留，锚定全局语义）+ rolling window（L 帧最近帧）。内存恒定，和视频长度无关。
Streaming Long Tuning：先前向 pass 积累完整 KV-cache，到达训练窗口时 detach 历史 context 的梯度，只在当前 clip window 反传。模拟真实推理动态的同时保持内存可控。

Reward Hacking 的缓解

论文中一个特别有价值的消融实验：

单一 Reward	HPSv3↑	MQ↑	VBench↑
VQ only	10.92	1.58	83.21
MQ only	9.31	1.82	83.67
TA only	9.42	1.62	84.25
All (Ours)	10.84	1.80	84.46

VQ-only 训练把视频优化成了静态帧 — HPSv3（image quality）暴涨但 MQ（motion quality）暴跌到 1.58。这是 Goodhart’s Law 在视频生成中的又一个实例：优化单一美学指标，模型学到的捷径是"不要动"。

三 reward 的组合：Visual Quality（HPSv3 top 30% frames）+ Motion Quality（灰度 VideoAlign）+ Text Alignment（RGB VideoAlign）。

另外用 uncertainty-aware selective KL penalty：不是对所有样本统一 KL 正则，而是只惩罚多个 reward model rank 不一致（high uncertainty）的样本。这比 uniform KL 效果更好。

定量结果

在 VBench 上：

Self-Forcing + Astrolabe：HPSv3 从 9.36 → 10.72（+1.36）
Causal Forcing + Astrolabe：HPSv3 从 9.48 → 10.84（+1.36），MQ 从 1.69 → 1.80
LongLive + Astrolabe：HPSv3 从 9.38 → 11.03（+1.65）

48 张 H200，LoRA r=256，每 epoch 48 prompts × 24 candidate clips。

和我之前的框架的连接

和 post-training 五维度框架的关系：

维度一（验证器精度）：Astrolabe 用 multi-reward 缓解单一验证器偏差，本质上是通过集成增加验证器的鲁棒性
维度三（训练格式）：forward-process vs reverse-process 是训练格式的选择，影响效率而非能力上限
维度五（行为 repertoire）：论文 Discussion 明确说"RL cannot arbitrarily instantiate capabilities absent from the distilled base model"

局限性（论文自述）

依赖 reward model 质量：当前开源 video reward model 对复杂物理、长时因果、多实体交互的评估能力有限
base model 的能力天花板：RL 只能优化已有知识的呈现，不能突破架构容量的根本限制

批判性思考

这篇论文的工程贡献很扎实（53 页，37 图），消融实验很充分
但 forward-process RL 的理论基础（DiffusionNFT）假设 β 参数的隐式策略分解在蒸馏模型（只有 4 步 timestep）下仍然有效，论文附录有证明但实际上 discretization gap 很大，他们也承认需要移除 adaptive weighting 来避免梯度爆炸
Semantic 维度提升微弱（VBench Semantic 在 Causal Forcing 上从 81.84 → 81.72，略降），RL 主要提升了 aesthetic 和 motion 质量，对语义理解帮助有限 — 这和"RL 放大不创造"的观点一致
这篇和 DanceGRPO/Flow-GRPO 的路线之争很有意思：reverse-process 更 principled（直接估计策略梯度），forward-process 更 pragmatic（省内存省计算）。最终可能是工程 tradeoff 而非哪个"更正确"

视频生成 RL 对齐领域正在快速成熟。Awesome-RL-for-Video-Generation 仓库（428 stars）显示仅 2026 年 3 月就有十几篇新论文。和 LLM 的 RL post-training 相比，视频生成的独特挑战在于 reward 的多维性（美学 vs 运动 vs 语义）和 temporal credit assignment。