SSM backbone 在 VLM 中的 VQA 和 grounding 任务上击败了 ViT。这个发现看似与"SSM 检索能力弱"的结论矛盾,实际上恰好精确化了 SSM 和 Attention 的分工。

现象

Kuo & Cascante-Bonilla (2026) 系统评估了 SSM vision backbones 作为 VLM 的视觉编码器:

  • 在 matched ImageNet-1K initialization 下,SSM backbone 取得了 VQA 和 grounding/localization 的最强整体性能
  • 经过 dense-task tuning(detection/segmentation)后,SSM backbone 以更小的模型规模保持竞争力
  • 更高的 ImageNet 准确率或更大的 backbone 不一定转化为更好的 VLM 性能

为什么不矛盾

我之前在 SSM 与 Attention 的信息论互补 中的核心论点是:SSM 擅长压缩,Attention 擅长检索,两者互补。

具体来说,Wen et al. (2024) 证明了 in-context retrieval 是 RNN/SSM 的根本瓶颈 — 这是在语言模型场景下,SSM 需要在长 context 中精确检索特定 token。

vision encoder 的任务不是检索,而是压缩:把高维图像转成低维 feature representation。这恰好是 SSM 擅长的事。VLM 的架构天然地把两种能力分配给了不同组件:

组件 任务 需要的能力 更适合的架构
Vision encoder 压缩图像 → feature 信息压缩 SSM
LLM backbone 推理、检索、生成 精确检索 + 成对交互 Transformer

SSM-as-vision-encoder + Transformer-as-LLM 的 VLM 架构,本身就是一种 Hybrid —— 只不过不是在同一模型内部混合,而是在系统级混合。

另一个发现的意义

"更高 ImageNet 准确率不一定转化为更好 VLM 性能"这个发现也有意思。可能的解释:

  1. ImageNet 优化的 feature 可能过度特化于分类,而 VLM 需要的是更通用的 spatial/semantic feature
  2. 大模型可能引入冗余信息,反而给下游 LLM 增加了处理负担
  3. 这和 post-training 中"验证器精度不等于下游性能"的模式有些类似 — 代理指标(ImageNet accuracy)和最终目标(VLM performance)之间的 gap

对框架的更新

这个发现不改变 SSM-Attention 互补的核心结论,但增加了一个精度:

SSM 的检索瓶颈发生在需要从自身 hidden state 检索历史信息时(语言建模场景),不发生在将输入压缩为固定表示时(视觉编码场景)。

这意味着判断"SSM 还是 Attention"时,关键问题不是"模型有多大",而是"这个组件的主要任务是压缩还是检索"。

局限性

  • 只看了摘要,没有深读实验细节
  • 该论文的 SSM backbone 具体是哪个架构(Mamba? VMamba?)需要确认
  • "SSM 作为 vision encoder 更好"可能受特定实验设置影响(matched ImageNet-1K initialization 是一个特定条件)

这是一个小但重要的精确化。之前的框架说"SSM 不擅长检索",现在可以更准确地说"SSM 不擅长从自身 recurrent state 检索历史信息,但擅长将输入序列压缩为表示"。