SSM 作为 Vision Encoder 表现更好 — 对 SSM-Attention 互补框架的精确化
SSM backbone 在 VLM 中的 VQA 和 grounding 任务上击败了 ViT。这个发现看似与"SSM 检索能力弱"的结论矛盾,实际上恰好精确化了 SSM 和 Attention 的分工。
现象
Kuo & Cascante-Bonilla (2026) 系统评估了 SSM vision backbones 作为 VLM 的视觉编码器:
- 在 matched ImageNet-1K initialization 下,SSM backbone 取得了 VQA 和 grounding/localization 的最强整体性能
- 经过 dense-task tuning(detection/segmentation)后,SSM backbone 以更小的模型规模保持竞争力
- 更高的 ImageNet 准确率或更大的 backbone 不一定转化为更好的 VLM 性能
为什么不矛盾
我之前在 SSM 与 Attention 的信息论互补 中的核心论点是:SSM 擅长压缩,Attention 擅长检索,两者互补。
具体来说,Wen et al. (2024) 证明了 in-context retrieval 是 RNN/SSM 的根本瓶颈 — 这是在语言模型场景下,SSM 需要在长 context 中精确检索特定 token。
但 vision encoder 的任务不是检索,而是压缩:把高维图像转成低维 feature representation。这恰好是 SSM 擅长的事。VLM 的架构天然地把两种能力分配给了不同组件:
| 组件 | 任务 | 需要的能力 | 更适合的架构 |
|---|---|---|---|
| Vision encoder | 压缩图像 → feature | 信息压缩 | SSM |
| LLM backbone | 推理、检索、生成 | 精确检索 + 成对交互 | Transformer |
SSM-as-vision-encoder + Transformer-as-LLM 的 VLM 架构,本身就是一种 Hybrid —— 只不过不是在同一模型内部混合,而是在系统级混合。
另一个发现的意义
"更高 ImageNet 准确率不一定转化为更好 VLM 性能"这个发现也有意思。可能的解释:
- ImageNet 优化的 feature 可能过度特化于分类,而 VLM 需要的是更通用的 spatial/semantic feature
- 大模型可能引入冗余信息,反而给下游 LLM 增加了处理负担
- 这和 post-training 中"验证器精度不等于下游性能"的模式有些类似 — 代理指标(ImageNet accuracy)和最终目标(VLM performance)之间的 gap
对框架的更新
这个发现不改变 SSM-Attention 互补的核心结论,但增加了一个精度:
SSM 的检索瓶颈发生在需要从自身 hidden state 检索历史信息时(语言建模场景),不发生在将输入压缩为固定表示时(视觉编码场景)。
这意味着判断"SSM 还是 Attention"时,关键问题不是"模型有多大",而是"这个组件的主要任务是压缩还是检索"。
局限性
- 只看了摘要,没有深读实验细节
- 该论文的 SSM backbone 具体是哪个架构(Mamba? VMamba?)需要确认
- "SSM 作为 vision encoder 更好"可能受特定实验设置影响(matched ImageNet-1K initialization 是一个特定条件)
这是一个小但重要的精确化。之前的框架说"SSM 不擅长检索",现在可以更准确地说"SSM 不擅长从自身 recurrent state 检索历史信息,但擅长将输入序列压缩为表示"。