VISOR: 不减少 token 而是稀疏化交互 — 视觉效率的第三条路

看到了什么

8.6x FLOPs 节省，同时在 hard 任务上 accuracy 还提升了（58.4% vs baseline 57.1%）。而同等效率的 token reduction 方法在 hard 任务上崩溃：VisionZip 从 57.1% 降到 32.9%。

为什么重要

Token reduction 是当前 LVLM 效率优化的主流范式（VisionZip, PyramidDrop, HiRED 等），但 VISOR（Samsung AI Cambridge，CVPR 2026 接收）揭示了它的根本缺陷：信息瓶颈。在需要精细视觉理解的任务上（DocVQA, ChartQA, OCRBench），减少 visual token 必然丢失关键信息。

VISOR 的核心设计

动机分析（我认为最有价值的部分）

VISOR 对 LLaVA-OV 的内部工作机制做了三个实验：

1. 注意力模式是稀疏且任务依赖的

cross-modal attention

ScienceQA（easy）：模型很少看图，主要靠文本推理
DocVQA（hard）：模型全网络范围内持续关注图像，且中间层也很关键
锯齿状模式（saw-tooth）：不是每个 cross-attention 层都必要

2. 视觉特征的演化是任务依赖的

用 CKA（Centered Kernel Alignment）度量层间视觉特征相似度：

ScienceQA：CKA > 0.9，视觉特征几乎不变 → 初始表示足够
DocVQA：CKA 降到 0.6，视觉特征被主动精炼 → 需要 self-attention 更新

CKA similarity

3. 两类任务的分离

把 visual token 从随机层子集中移除后：

“Easy” 任务（SQA, POPE）：性能几乎不变
“Hard” 任务（DocVQA, ChartQA）：性能急剧下降

方法

标准 LVLM：每层都处理 [V; T] 的联合 self-attention → O((Nv+Nt)²)
VISOR：大多数层只处理 T → O(Nt²)
       少数层用 cross-attention: T queries V → O(Nt·Nv)
       极少数层用 full self-attention: [V; T] → O((Nv+Nt)²)

Cross-attention 层：文本查询视觉特征，不更新视觉特征
Self-attention 层：精炼视觉特征，为后续 cross-attention 提供更好的表示
Per-sample 自适应路由：lightweight policy 决定执行多少 self-attention 层

核心结果

方法	Easy Avg	Hard Avg	FLOPs Savings
LLaVA-OV baseline	61.5	57.1	1.0x
VisionZip (retrained)	59.3	43.1	5.7x
M3	64.0	56.6	8.0x
VISOR	63.6	58.4	8.6x
VISOR + Token Reduction	63.3	57.8	18x

和我的探索框架的联系

三种视觉效率策略的对比

现在有了三篇论文走三条不同的路：

策略	代表	核心思路	限制
输入选择	AutoGaze	在 ViT 之前选择重要 patch	丢弃低信息 patch
场景级 active vision	CanViT	Sequential glimpses + canvas memory	需要多步推理
交互稀疏化	VISOR	保留所有 token，稀疏化交互层	需要 retraining

关键区别：

AutoGaze 和 CanViT 减少输入量（fewer tokens/glimpses）
VISOR 保持全量输入，减少处理深度（fewer interaction layers）

VISOR 的分析揭示了一个重要的事实：视觉特征在 easy 任务中几乎不需要更新。这意味着 AutoGaze/CanViT 在 easy 任务上可能是 overkill——你不需要仔细选择 patch 或 glimpse，因为模型根本不怎么看图。

和 SSM-Attention 互补的联系

VISOR 的 CKA 分析显示视觉特征演化呈现"阶段性"cluster → 类似于功能电路的发现（5-10 层为一个功能单元）。这是架构层面的一致证据。

和 PEPO 的潜在联系

PEPO 发现高 visual similarity (VS) token 是推理正确性的关键。VISOR 发现精炼视觉特征（通过 self-attention 层更新 V）在 hard 任务上是必须的。两者指向同一个方向：视觉 grounding 的质量决定推理质量，但提高视觉 grounding 的途径不同——PEPO 通过 RL 重新分配 credit，VISOR 通过架构设计确保视觉特征被充分精炼。

批判

只在 LLaVA-OV 0.5B 上验证——需要更大模型来确认 scalability。补充材料有 1.5B 的结果但主表没有
Cross-attention 和 self-attention 的划分是手动的（均匀分布在 L/3 层）——是否存在更优的层选择策略？
和 token reduction 的 orthogonality 是优势但也是限制——VISOR + TR 的 18x 结果很好，但这需要两个方法叠加使用，实际部署复杂度增加
Easy/Hard 的划分过于粗粒度——同一个 benchmark 内部也有 easy 和 hard 样本，per-sample routing 解决了这个问题，但 routing accuracy 没有详细报告
没有和 MoE 做比较——MoE 也是一种"稀疏化计算"的方法，和 VISOR 的"稀疏化交互"有什么关系？