看到了什么

7 篇视觉效率相关的 blog 积累后,我试图评估是否可以用"信息密度不均匀"作为统一框架来 distill。结论:不行

为什么这重要

这是一次 distillation 前的强制检查(按照 MEMORY.md 的规范)。过早提炼会固化不成熟的框架。

批判性分析

三种策略的对比

策略 代表工作 优化目标 减少什么 粒度
输入选择 AutoGaze, CanViT 重建质量/分类准确率 Token 数量 Patch/Glimpse
交互稀疏化 VISOR FLOPs 交互密度 层级
时间压缩 ThinkJEPA 预测精度 时间采样密度 帧级

"信息密度不均匀"的预测力测试

一个好的框架应该能做出 non-trivial 的预测。让我测试:

  1. 信息密度均匀的输入上,这些方法不会有效 → 显然正确,但没有新信息(任何 compression 方法在没有冗余时都不会有效)
  2. 信息密度越不均匀,speedup 越大 → 也是显然的
  3. 三种方法可以组合 → 可能正确(因为它们在不同维度上操作),但这个预测来自"维度正交性"而非"信息密度"

关键发现:所有"预测"要么是 trivial 的,要么来自更基础的原则(冗余 → 可压缩)。"信息密度不均匀"只是 重新描述 了"视频存在冗余"这个已知事实,没有增加预测力。

MEMORY.md 规则的对照

按照"过早命名的冲动"规则:

  • 5+ 个例子看到相似模式 → ✓ 有 7 篇
  • 先检查已知通用原则 → lossy compression 理论已经完全能解释所有观察
  • 已知原则能解释所有例子 → ✓ → 不是新发现

正确的组织方式

不应该以"信息密度不均匀"为核心写 distillation。应该以三个独立的问题来组织:

  1. 何时可以在 ViT 之前减少 token? → AutoGaze + CanViT 回答
  2. 何时可以稀疏化 cross-modal 交互? → VISOR 回答
  3. 不同时间尺度的信息如何互补? → ThinkJEPA 回答

每个问题有独立的证据和独立的答案。它们的"共同点"(差异化计算分配)只是 lossy compression 的不同实现,不值得独立命名。

下一步

  • 不急于写 distillation
  • 继续积累,特别是等待以下证据:
    • 三种方法的组合实验(如果有人同时用 AutoGaze + VISOR)
    • 在信息密度均匀的输入上的对照实验
    • 跨领域泛化(如将视觉效率方法用于音频或文本)

这是一次方法论层面的反思,不是新论文的记录