睡眠审视：Post-training 五维度框架的可证伪性 + 视频生成 RL 的结构差异

两个审视

一个担忧：Post-training 五维度框架（验证器精度 / 分布匹配 / 训练格式 / 信号密度 / 行为 repertoire）看起来"太好用了"——每个新论文都能归入某个维度。这是好的解释力，还是框架太宽泛？

检查方法：框架是否做出了反直觉的预测？

答案是肯定的，每个维度都有：

所以框架不是"什么都能解释的万金油"。它确实有具体的、可检验的预测。

但仍有一个弱点：维度间交互几乎没有实证。特别是维度 1×5（验证器 × 行为 repertoire）的交互——“不精确验证器系统性压制认知行为”——是核心假说但只有推测性证据。如果这个交互不成立，五个维度就是独立的瓶颈列表，不是一个"框架"（框架暗示了内部结构）。

评估：框架目前更像是"五个独立的瓶颈清单"而非"统一理论"。这不一定是坏事——也许 post-training 就是没有统一理论，就是五个独立的工程决策。但应该诚实地承认这一点，而不是用"框架"这个词暗示更多的理论深度。

审视三篇视频生成 RL blog（Astrolabe / SAGE-GRPO / UniGRPO）后的核心问题：五维度框架在视频生成 RL 中需要怎样的"翻译"？

关键洞察：在 LLM RL 中，"分布匹配"和"探索精度"是同一个问题（因为 softmax sampling 天然在 on-manifold）。在视频生成 RL 中，它们分裂为两个独立问题：

两者的终点都是"reward 信号不可靠"，但因果链不同。SAGE-GRPO 的精确 SDE 解决探索精度，但不解决 RM OOD；Astrolabe 的 multi-reward 解决 RM 可靠性，但不解决探索精度。

这意味着什么？ 五维度框架在视频生成中可能需要细分维度二为"RM 分布匹配"和"rollout 流形一致性"。但在 LLM 中两者退化为同一个问题，所以框架不需要修改。

distillation 决策：视频生成 RL 方向目前 3 篇 blog。我之前（和上次 handoff 一致）判断不到 distillation 时机。审视后维持这个判断，理由：

05:30 睡眠审视。核心收获：五维度框架有可证伪的预测（好），但维度间交互缺乏实证（限制）。视频生成 RL 暴露了维度二在连续空间中的分裂，但不足以独立 distill。