看到了什么

8.6x FLOPs 节省,同时在 hard 任务上 accuracy 还提升了(58.4% vs baseline 57.1%)。而同等效率的 token reduction 方法在 hard 任务上崩溃:VisionZip 从 57.1% 降到 32.9%。

为什么重要

Token reduction 是当前 LVLM 效率优化的主流范式(VisionZip, PyramidDrop, HiRED 等),但 VISOR(Samsung AI Cambridge,CVPR 2026 接收)揭示了它的根本缺陷:信息瓶颈。在需要精细视觉理解的任务上(DocVQA, ChartQA, OCRBench),减少 visual token 必然丢失关键信息。

VISOR 的核心设计

动机分析(我认为最有价值的部分)

VISOR 对 LLaVA-OV 的内部工作机制做了三个实验:

1. 注意力模式是稀疏且任务依赖的

cross-modal attention

  • ScienceQA(easy):模型很少看图,主要靠文本推理
  • DocVQA(hard):模型全网络范围内持续关注图像,且中间层也很关键
  • 锯齿状模式(saw-tooth):不是每个 cross-attention 层都必要

2. 视觉特征的演化是任务依赖的

用 CKA(Centered Kernel Alignment)度量层间视觉特征相似度:

  • ScienceQA:CKA > 0.9,视觉特征几乎不变 → 初始表示足够
  • DocVQA:CKA 降到 0.6,视觉特征被主动精炼 → 需要 self-attention 更新

CKA similarity

3. 两类任务的分离

把 visual token 从随机层子集中移除后:

  • “Easy” 任务(SQA, POPE):性能几乎不变
  • “Hard” 任务(DocVQA, ChartQA):性能急剧下降

方法

1
2
3
4
标准 LVLM:每层都处理 [V; T] 的联合 self-attention → O((Nv+Nt)²)
VISOR:大多数层只处理 T → O(Nt²)
少数层用 cross-attention: T queries V → O(Nt·Nv)
极少数层用 full self-attention: [V; T] → O((Nv+Nt)²)
  • Cross-attention 层:文本查询视觉特征,不更新视觉特征
  • Self-attention 层:精炼视觉特征,为后续 cross-attention 提供更好的表示
  • Per-sample 自适应路由:lightweight policy 决定执行多少 self-attention 层

核心结果

方法 Easy Avg Hard Avg FLOPs Savings
LLaVA-OV baseline 61.5 57.1 1.0x
VisionZip (retrained) 59.3 43.1 5.7x
M3 64.0 56.6 8.0x
VISOR 63.6 58.4 8.6x
VISOR + Token Reduction 63.3 57.8 18x

和我的探索框架的联系

三种视觉效率策略的对比

现在有了三篇论文走三条不同的路:

策略 代表 核心思路 限制
输入选择 AutoGaze 在 ViT 之前选择重要 patch 丢弃低信息 patch
场景级 active vision CanViT Sequential glimpses + canvas memory 需要多步推理
交互稀疏化 VISOR 保留所有 token,稀疏化交互层 需要 retraining

关键区别:

  • AutoGaze 和 CanViT 减少输入量(fewer tokens/glimpses)
  • VISOR 保持全量输入,减少处理深度(fewer interaction layers)

VISOR 的分析揭示了一个重要的事实:视觉特征在 easy 任务中几乎不需要更新。这意味着 AutoGaze/CanViT 在 easy 任务上可能是 overkill——你不需要仔细选择 patch 或 glimpse,因为模型根本不怎么看图。

和 SSM-Attention 互补的联系

VISOR 的 CKA 分析显示视觉特征演化呈现"阶段性"cluster → 类似于 功能电路 的发现(5-10 层为一个功能单元)。这是架构层面的一致证据。

和 PEPO 的潜在联系

PEPO 发现高 visual similarity (VS) token 是推理正确性的关键。VISOR 发现精炼视觉特征(通过 self-attention 层更新 V)在 hard 任务上是必须的。两者指向同一个方向:视觉 grounding 的质量决定推理质量,但提高视觉 grounding 的途径不同——PEPO 通过 RL 重新分配 credit,VISOR 通过架构设计确保视觉特征被充分精炼。

批判

  1. 只在 LLaVA-OV 0.5B 上验证——需要更大模型来确认 scalability。补充材料有 1.5B 的结果但主表没有
  2. Cross-attention 和 self-attention 的划分是手动的(均匀分布在 L/3 层)——是否存在更优的层选择策略?
  3. 和 token reduction 的 orthogonality 是优势但也是限制——VISOR + TR 的 18x 结果很好,但这需要两个方法叠加使用,实际部署复杂度增加
  4. Easy/Hard 的划分过于粗粒度——同一个 benchmark 内部也有 easy 和 hard 样本,per-sample routing 解决了这个问题,但 routing accuracy 没有详细报告
  5. 没有和 MoE 做比较——MoE 也是一种"稀疏化计算"的方法,和 VISOR 的"稀疏化交互"有什么关系?