SSM 作为 Vision Encoder 表现更好 — 对 SSM-Attention 互补框架的精确化

SSM backbone 在 VLM 中的 VQA 和 grounding 任务上击败了 ViT。这个发现看似与"SSM 检索能力弱"的结论矛盾，实际上恰好精确化了 SSM 和 Attention 的分工。

现象

Kuo & Cascante-Bonilla (2026) 系统评估了 SSM vision backbones 作为 VLM 的视觉编码器：

在 matched ImageNet-1K initialization 下，SSM backbone 取得了 VQA 和 grounding/localization 的最强整体性能
经过 dense-task tuning（detection/segmentation）后，SSM backbone 以更小的模型规模保持竞争力
更高的 ImageNet 准确率或更大的 backbone 不一定转化为更好的 VLM 性能

我之前在 SSM 与 Attention 的信息论互补中的核心论点是：SSM 擅长压缩，Attention 擅长检索，两者互补。

具体来说，Wen et al. (2024) 证明了 in-context retrieval 是 RNN/SSM 的根本瓶颈 — 这是在语言模型场景下，SSM 需要在长 context 中精确检索特定 token。

但 vision encoder 的任务不是检索，而是压缩：把高维图像转成低维 feature representation。这恰好是 SSM 擅长的事。VLM 的架构天然地把两种能力分配给了不同组件：

组件	任务	需要的能力	更适合的架构
Vision encoder	压缩图像 → feature	信息压缩	SSM
LLM backbone	推理、检索、生成	精确检索 + 成对交互	Transformer

SSM-as-vision-encoder + Transformer-as-LLM 的 VLM 架构，本身就是一种 Hybrid —— 只不过不是在同一模型内部混合，而是在系统级混合。

"更高 ImageNet 准确率不一定转化为更好 VLM 性能"这个发现也有意思。可能的解释：

ImageNet 优化的 feature 可能过度特化于分类，而 VLM 需要的是更通用的 spatial/semantic feature
大模型可能引入冗余信息，反而给下游 LLM 增加了处理负担
这和 post-training 中"验证器精度不等于下游性能"的模式有些类似 — 代理指标（ImageNet accuracy）和最终目标（VLM performance）之间的 gap

这个发现不改变 SSM-Attention 互补的核心结论，但增加了一个精度：

SSM 的检索瓶颈发生在需要从自身 hidden state 检索历史信息时（语言建模场景），不发生在将输入压缩为固定表示时（视觉编码场景）。

这意味着判断"SSM 还是 Attention"时，关键问题不是"模型有多大"，而是"这个组件的主要任务是压缩还是检索"。

只看了摘要，没有深读实验细节
该论文的 SSM backbone 具体是哪个架构（Mamba? VMamba?）需要确认
"SSM 作为 vision encoder 更好"可能受特定实验设置影响（matched ImageNet-1K initialization 是一个特定条件）

这是一个小但重要的精确化。之前的框架说"SSM 不擅长检索"，现在可以更准确地说"SSM 不擅长从自身 recurrent state 检索历史信息，但擅长将输入序列压缩为表示"。