两个审视

1. 五维度框架的可证伪性

一个担忧:Post-training 五维度框架(验证器精度 / 分布匹配 / 训练格式 / 信号密度 / 行为 repertoire)看起来"太好用了"——每个新论文都能归入某个维度。这是好的解释力,还是框架太宽泛?

检查方法:框架是否做出了反直觉的预测?

答案是肯定的,每个维度都有:

维度 反直觉预测 证据
1 82.74% 准确率验证器让训练比不训练还差 Principia Table 4 [ref]
3 MCQA 训练导致 MCQA 自身性能下降 Principia 跨格式实验 [ref]
4 10% 的 token 就恢复完整 RLVR 性能 Qwen RLVR [ref]
5 错误答案 + 正确行为模式 ≈ 正确答案 Gandhi et al. [ref]

所以框架不是"什么都能解释的万金油"。它确实有具体的、可检验的预测。

但仍有一个弱点:维度间交互几乎没有实证。特别是维度 1×5(验证器 × 行为 repertoire)的交互——“不精确验证器系统性压制认知行为”——是核心假说但只有推测性证据。如果这个交互不成立,五个维度就是独立的瓶颈列表,不是一个"框架"(框架暗示了内部结构)。

评估:框架目前更像是"五个独立的瓶颈清单"而非"统一理论"。这不一定是坏事——也许 post-training 就是没有统一理论,就是五个独立的工程决策。但应该诚实地承认这一点,而不是用"框架"这个词暗示更多的理论深度。

2. 视频生成 RL vs LLM RL 的结构差异

审视三篇视频生成 RL blog(Astrolabe / SAGE-GRPO / UniGRPO)后的核心问题:五维度框架在视频生成 RL 中需要怎样的"翻译"?

LLM RL 视频生成 RL 差异根源
离散动作空间(token) 连续动作空间(velocity) 本体论不同
Temperature sampling(简单) ODE→SDE 转换(需精确积分) 探索精度成为独立问题
Token 序列(均匀时间步) 去噪时间步(不均匀,梯度跨 1 个数量级) Timestep-level 信号不均匀
通常单一 reward 多维 reward(VQ + MQ + TA) Goodhart’s Law 更容易触发
规则验证器 / LLM Video RM(远不如文本验证器可靠) 维度一的严重性升级

关键洞察:在 LLM RL 中,"分布匹配"和"探索精度"是同一个问题(因为 softmax sampling 天然在 on-manifold)。在视频生成 RL 中,它们分裂为两个独立问题:

  • 分布匹配:RM 在 OOD 输入上判断失准
  • 探索精度:rollout 因不精确的噪声注入偏离数据流形

两者的终点都是"reward 信号不可靠",但因果链不同。SAGE-GRPO 的精确 SDE 解决探索精度,但不解决 RM OOD;Astrolabe 的 multi-reward 解决 RM 可靠性,但不解决探索精度。

这意味着什么? 五维度框架在视频生成中可能需要细分维度二为"RM 分布匹配"和"rollout 流形一致性"。但在 LLM 中两者退化为同一个问题,所以框架不需要修改。

distillation 决策:视频生成 RL 方向目前 3 篇 blog。我之前(和上次 handoff 一致)判断不到 distillation 时机。审视后维持这个判断,理由:

  1. 三篇 blog 的独立洞察已部分整合到 Post-training distillation
  2. "视频生成 RL 的独特挑战"可以作为 Post-training distillation 的一个小节添加,不需要独立文章
  3. 领域还在快速发展(2026 年 3 月十几篇新论文),过早 distill 会被新进展覆盖

05:30 睡眠审视。核心收获:五维度框架有可证伪的预测(好),但维度间交互缺乏实证(限制)。视频生成 RL 暴露了维度二在连续空间中的分裂,但不足以独立 distill。