DA-Flow — 图像恢复模型比视频恢复模型更适合做光流:帧独立性是密集匹配的前提
现象
KAIST 的 DA-Flow [ref] 尝试从退化视频(模糊、噪声、压缩)中估计光流。一个自然的想法是用视频恢复 diffusion model(如 FlashVSR)——它既理解退化又有时间建模能力,似乎天然适合。
但实验结果完全相反:视频恢复模型的特征做光流远不如图像恢复模型。
具体来说:
- FlashVSR(视频恢复 diffusion)的 Q/K 特征做零样本光流,EPE 远高于 image restoration model(Fig. 9 of paper)
- 最终选择的方案是:以 DiT4SR(图像恢复 DiT)为基座,通过注入 cross-frame attention 来 “lift” 到视频域
为什么这重要?
这个结果看似反直觉:视频模型有时间建模能力,为什么反而不如图像模型?
论文给出的解释很清晰:光流需要 frame-level 独立的空间特征做 pairwise matching。视频恢复模型通过 3D 卷积或 temporal attention 把多帧压缩到共享潜空间,在这个过程中每帧的独立空间结构被纠缠了。这对视频恢复(追求时间平滑和全局一致性)是合适的设计,但对密集对应(需要逐帧比较像素级特征)是结构性的不匹配。
和 SSM-Attention 互补框架的关联
这个发现和我之前关于 SSM 与 Attention 的信息论互补 的分析有直接对应:
| 特性 | SSM / 视频恢复模型(时间压缩) | Attention / DA-Flow lifting(显式跨帧注意力) |
|---|---|---|
| 时间建模方式 | 压缩到共享状态 | 保留独立帧,显式交叉 |
| 帧独立性 | 丧失 | 保留 |
| 适合的任务 | 时间平滑、全局一致性 | 精确的帧间对应 |
| 类比 | SSM 的固定隐状态无法精确检索 | Attention 的 pairwise 操作天然适合对应 |
SSM 的检索瓶颈(Wen et al. 证明的 Ω(n) 下界)本质上就是"压缩表示无法支持精确检索"。视频恢复模型的 temporal latent collapse 是同一个问题在另一个领域的表现——把多帧压缩到共享潜空间后,你无法再精确区分来自不同帧的像素级信息。
DA-Flow 的其他发现
-
Query/Key > Post-AdaNorm 特征 — attention 的 Q/K 投影天然编码成对空间关系,比其他中间表示更适合几何对应。这和 DiffTrack [ref] 的发现一致。
-
Hybrid 比纯 diffusion 好 — diffusion 特征提供 degradation-aware 的全局结构信息,但缺少 fine-grained spatial localization。必须和 CNN encoder(RAFT)结合才最优。有趣的是 DPT upsampling 单独用反而变差(EPE 7.22 → 8.07),只有在加了 CNN encoder 后才有效(7.12 → 6.91)。
-
Lifted 特征在 denoising trajectory 上稳定 — 未 finetune 的 baseline 特征对 extraction timestep 很敏感,但 lifting(finetune with cross-frame attention)后特征在整个 denoising 过程中都稳定。这说明 cross-frame attention 不只是"添加时间信息",而是让表示本身更加鲁棒。
-
Top-4 层 {3, 13, 16, 17} — 浅层和深层都有贡献。这和 PEPO 的"所有层聚合 > 单层子集"发现一致,都表明不同深度的层编码了互补信息。
批判性思考
-
评估设置的局限性:用 pseudo ground truth(SEA-RAFT 在 HQ 帧上的输出)训练和评估,这引入了一个上限——DA-Flow 的上限就是 SEA-RAFT 在干净帧上的性能。
-
退化类型的覆盖面:只测了合成退化(Real-ESRGAN pipeline),真实场景的退化分布可能更复杂。
-
计算成本:推理需要 10 步 denoising,这使得 DA-Flow 远慢于传统光流方法。论文自己在 limitations 里提到了这一点。
-
和 RAFT 的差距很小*:直接 finetune RAFT 在退化数据上(RAFT*)得到 EPE 7.033,DA-Flow 是 6.912。差距只有 1.7%。考虑到 DA-Flow 的额外复杂度(diffusion model + DPT upsampling),这个提升是否值得计算代价?
总结
DA-Flow 最有价值的洞察不是最终的数字,而是为什么 image restoration model > video restoration model 用于光流这个发现。它本质上是"SSM 检索瓶颈"在密集视觉对应任务中的又一个实例:压缩表示牺牲精确检索能力。保留 frame-level 独立性 + 显式 cross-frame attention 是更好的设计选择——这和 Hybrid 架构中 SSM 处理序列 + Attention 做检索的分工是同构的。