看到了什么现象?

LongMamba(ICLR 2026, 被引 33 次)在 32k token passkey retrieval 上把纯 SSM 从 0% 拉到 73%。但在 Falcon Mamba 7B + LongBench 上,提升只有 23.4% → 26.2%,仍然低于 Vicuna-v1.5-7B-16k 的 30.1%。

为什么这重要?

上次 distillation 中的核心论点是"SSM 在精确检索上有信息论硬边界",基于 Wen et al. (2024) 的证明 [ref]。LongMamba 号称 training-free 地"显著增强"了 Mamba 的长上下文能力,而且被 ICLR 2026 接收。如果 LongMamba 真的解决了检索瓶颈,我的核心论点就需要修正。

这篇文章回答什么问题?

LongMamba 和 RwR 是否挑战了"SSM 在精确检索上有信息论硬边界"的论点?


LongMamba 的机制分析

核心发现:Mamba 的 hidden channels 有两类

LongMamba [ref] 发现 Mamba 的隐状态通道可以分为:

  • Local channels:感受野远小于训练序列长度,只关注局部上下文
  • Global channels:感受野覆盖整个训练序列长度,负责全局信息

超出训练长度时,global channels 因指数衰减(cumulative state decay = exp(ΣΔ·A))而崩溃——它们的感受野无法外推。

Token filtering 的本质

LongMamba 的解法是 token filtering:对 global channels,当输入 token 的选择性参数 Δ_t < 阈值 g 时,设置 A’=1, B’=0(即跳过这个 token 的状态更新)。这样减少了 global channels 累积的衰减,使感受野能扩展到更长的序列。

这个机制本质上在做什么?选择性地保留重要 token,过滤掉不重要 token。 这和 Attention 的 content-based addressing 在功能上是相似的——都是"从大量 token 中选出与当前相关的"。区别在于:

  • Attention 基于 query-key 相似度选择 token
  • LongMamba 基于 Δ_t 阈值选择 token(本质是模型自己的"这个 token 对状态更新有多重要"的内部评估)

实验结果的关键细节

RULER(合成检索任务)on Zamba2-1.2B:

序列长度 Vanilla 平均 LongMamba 平均 提升
16k 7.00% 31.58% +24.6%
24k 7.04% 22.22% +15.2%
32k 2.72% 13.83% +11.1%

显著提升,但 passkey retrieval (S2) 从 0% → 73% (32k) 是最亮眼的。

Falcon Mamba 7B on LongBench:

方法 平均准确率
Vanilla Falcon Mamba 23.4%
LongMamba 26.2% (+2.8%)
Llama2-7B-chat-4k 26.1%
Vicuna-v1.5-7B-16k 30.1%

7B 规模上提升有限(+2.8%),且仍然不如同尺寸 Transformer。


RwR 的机制分析

RwR (Recall with Reasoning) [ref] 来自腾讯 AI Lab,完全不同的思路:不改变 SSM 的状态更新机制,而是通过 CoT 蒸馏教 Mamba 先总结再回答。

核心观察:Mamba 的最后一个 token 的隐状态理论上编码了完整历史(通过 selective state transition)。问题不是"信息不在状态里",而是"解码时 Mamba 的 implicit attention 偏向最近的 token"。

RwR 的解法:让 Mamba 先把长上下文总结为短摘要(decode from state),然后基于摘要回答(摘要足够短,不会超出有效感受野)。

100k 外推结果:

方法 LONGMEMEVAL S (100k) Avg
Mamba (SFT) 8.0%
DeciMamba 0.2%
RwR 9.8%
RwR + SSA 11.4%
Phi-2 (Transformer) 0.4%
Hymba (Hybrid) 0.0%

有趣的是,在 100k 外推上 Mamba 比 Transformer 和 Hybrid 好很多。但注意:这些模型的训练长度都很短(Mamba 2k, Phi-2 2k),所以这测的更多是"外推能力"而非"长上下文能力"。如果 Transformer 训练在 128k 上,结果会完全不同。


对 distillation 核心论点的影响

LongMamba 不改变信息论下界

LongMamba 的 token filtering 本质是减少有效序列长度。如果你过滤掉了 50% 的 token,你的 global channels 实际只需要处理一半长度的序列。这没有突破 Wen 的 o(n) memory 下界——只是通过启发式方法减少了"有效 n"。

证据:

  1. 在 7B 规模(Falcon Mamba + LongBench)上提升有限(+2.8%),仍不如 Transformer
  2. 性能随序列长度增加而衰减(16k +24.6% → 32k +11.1%)
  3. 在复杂的真实世界任务(multi-doc QA, summarization)上提升远小于合成检索任务

RwR 实际上是在 SSM 框架内模拟"两阶段检索"

RwR 的 summarize-then-answer 策略本质上是把一个长序列检索问题分解为:

  1. 生成摘要(利用状态的近似信息)
  2. 从摘要中检索(短序列,在 SSM 感受野内)

这绕过了长序列精确检索的困难,但代价是摘要可能丢失关键细节。100k 上 9.8% 的绝对准确率说明了这个代价。

对 distillation 的结论

不需要修改核心论点。 LongMamba 和 RwR 都是缓解措施(mitigation),不是解决方案(solution)。它们的存在反而从操作层面验证了信息论硬边界的影响——如果没有硬边界,就不需要这些精巧的绕行策略。

但值得在 distillation 中补充一段"缓解措施",说明:

  1. 有 training-free 的缓解方法(LongMamba),在合成任务上有效但在真实任务上有限
  2. 有 data-driven 的缓解方法(RwR),但绝对性能仍然很低
  3. 这些方法的存在不改变"hybrid 架构是必须的"结论,但精确化了"必须"的条件——取决于应用对精确检索的需求程度

一个意外的洞察:LongMamba 的 channel classification 支持 SSM 内部的功能分化

LongMamba 发现 Mamba 的 channels 自然分化为 local 和 global 两类。这很有趣——它暗示 SSM 通过训练内部形成了"分工":一些 channels 负责局部模式识别(类似卷积),另一些负责全局信息汇聚。

这个功能分化可能部分解释了为什么 SSM 在某些任务上能接近 Transformer:它不是用一种统一的方式处理所有尺度的信息,而是内部分化出了不同尺度的处理通道。

但这也揭示了一个结构性限制:global channels 的数量是固定的(由训练决定),它们的最大感受野也是固定的(由训练序列长度决定)。这和 Attention 的全动态寻址能力有本质区别。


关键引用:

  • Ye et al. (2025). LongMamba: Enhancing Mamba’s Long Context Capabilities. ICLR 2026. [ref]
  • Ma et al. (2025). Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory. [ref]
  • Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet). [ref]