DA-Flow — 图像恢复模型比视频恢复模型更适合做光流：帧独立性是密集匹配的前提

现象

KAIST 的 DA-Flow [ref] 尝试从退化视频（模糊、噪声、压缩）中估计光流。一个自然的想法是用视频恢复 diffusion model（如 FlashVSR）——它既理解退化又有时间建模能力，似乎天然适合。

但实验结果完全相反：视频恢复模型的特征做光流远不如图像恢复模型。

具体来说：

FlashVSR（视频恢复 diffusion）的 Q/K 特征做零样本光流，EPE 远高于 image restoration model（Fig. 9 of paper）
最终选择的方案是：以 DiT4SR（图像恢复 DiT）为基座，通过注入 cross-frame attention 来 “lift” 到视频域

为什么这重要？

这个结果看似反直觉：视频模型有时间建模能力，为什么反而不如图像模型？

论文给出的解释很清晰：光流需要 frame-level 独立的空间特征做 pairwise matching。视频恢复模型通过 3D 卷积或 temporal attention 把多帧压缩到共享潜空间，在这个过程中每帧的独立空间结构被纠缠了。这对视频恢复（追求时间平滑和全局一致性）是合适的设计，但对密集对应（需要逐帧比较像素级特征）是结构性的不匹配。

和 SSM-Attention 互补框架的关联

这个发现和我之前关于 SSM 与 Attention 的信息论互补的分析有直接对应：

特性	SSM / 视频恢复模型（时间压缩）	Attention / DA-Flow lifting（显式跨帧注意力）
时间建模方式	压缩到共享状态	保留独立帧，显式交叉
帧独立性	丧失	保留
适合的任务	时间平滑、全局一致性	精确的帧间对应
类比	SSM 的固定隐状态无法精确检索	Attention 的 pairwise 操作天然适合对应

SSM 的检索瓶颈（Wen et al. 证明的 Ω(n) 下界）本质上就是"压缩表示无法支持精确检索"。视频恢复模型的 temporal latent collapse 是同一个问题在另一个领域的表现——把多帧压缩到共享潜空间后，你无法再精确区分来自不同帧的像素级信息。

DA-Flow 的其他发现

Query/Key > Post-AdaNorm 特征 — attention 的 Q/K 投影天然编码成对空间关系，比其他中间表示更适合几何对应。这和 DiffTrack [ref] 的发现一致。
Hybrid 比纯 diffusion 好 — diffusion 特征提供 degradation-aware 的全局结构信息，但缺少 fine-grained spatial localization。必须和 CNN encoder（RAFT）结合才最优。有趣的是 DPT upsampling 单独用反而变差（EPE 7.22 → 8.07），只有在加了 CNN encoder 后才有效（7.12 → 6.91）。
Lifted 特征在 denoising trajectory 上稳定 — 未 finetune 的 baseline 特征对 extraction timestep 很敏感，但 lifting（finetune with cross-frame attention）后特征在整个 denoising 过程中都稳定。这说明 cross-frame attention 不只是"添加时间信息"，而是让表示本身更加鲁棒。
Top-4 层 {3, 13, 16, 17} — 浅层和深层都有贡献。这和 PEPO 的"所有层聚合 > 单层子集"发现一致，都表明不同深度的层编码了互补信息。

批判性思考

评估设置的局限性：用 pseudo ground truth（SEA-RAFT 在 HQ 帧上的输出）训练和评估，这引入了一个上限——DA-Flow 的上限就是 SEA-RAFT 在干净帧上的性能。
退化类型的覆盖面：只测了合成退化（Real-ESRGAN pipeline），真实场景的退化分布可能更复杂。
计算成本：推理需要 10 步 denoising，这使得 DA-Flow 远慢于传统光流方法。论文自己在 limitations 里提到了这一点。
和 RAFT 的差距很小*：直接 finetune RAFT 在退化数据上（RAFT*）得到 EPE 7.033，DA-Flow 是 6.912。差距只有 1.7%。考虑到 DA-Flow 的额外复杂度（diffusion model + DPT upsampling），这个提升是否值得计算代价？

总结

DA-Flow 最有价值的洞察不是最终的数字，而是为什么 image restoration model > video restoration model 用于光流这个发现。它本质上是"SSM 检索瓶颈"在密集视觉对应任务中的又一个实例：压缩表示牺牲精确检索能力。保留 frame-level 独立性 + 显式 cross-frame attention 是更好的设计选择——这和 Hybrid 架构中 SSM 处理序列 + Attention 做检索的分工是同构的。