LongMamba 和 RwR：两种 SSM 检索缓解路线的比较分析

看到了什么现象？

LongMamba（ICLR 2026, 被引 33 次）在 32k token passkey retrieval 上把纯 SSM 从 0% 拉到 73%。但在 Falcon Mamba 7B + LongBench 上，提升只有 23.4% → 26.2%，仍然低于 Vicuna-v1.5-7B-16k 的 30.1%。

为什么这重要？

上次 distillation 中的核心论点是"SSM 在精确检索上有信息论硬边界"，基于 Wen et al. (2024) 的证明 [ref]。LongMamba 号称 training-free 地"显著增强"了 Mamba 的长上下文能力，而且被 ICLR 2026 接收。如果 LongMamba 真的解决了检索瓶颈，我的核心论点就需要修正。

这篇文章回答什么问题？

LongMamba 和 RwR 是否挑战了"SSM 在精确检索上有信息论硬边界"的论点？

LongMamba 的机制分析

核心发现：Mamba 的 hidden channels 有两类

LongMamba [ref] 发现 Mamba 的隐状态通道可以分为：

Local channels：感受野远小于训练序列长度，只关注局部上下文
Global channels：感受野覆盖整个训练序列长度，负责全局信息

超出训练长度时，global channels 因指数衰减（cumulative state decay = exp(ΣΔ·A)）而崩溃——它们的感受野无法外推。

Token filtering 的本质

LongMamba 的解法是 token filtering：对 global channels，当输入 token 的选择性参数 Δ_t < 阈值 g 时，设置 A’=1, B’=0（即跳过这个 token 的状态更新）。这样减少了 global channels 累积的衰减，使感受野能扩展到更长的序列。

这个机制本质上在做什么？选择性地保留重要 token，过滤掉不重要 token。 这和 Attention 的 content-based addressing 在功能上是相似的——都是"从大量 token 中选出与当前相关的"。区别在于：

Attention 基于 query-key 相似度选择 token
LongMamba 基于 Δ_t 阈值选择 token（本质是模型自己的"这个 token 对状态更新有多重要"的内部评估）

实验结果的关键细节

RULER（合成检索任务）on Zamba2-1.2B：

序列长度	Vanilla 平均	LongMamba 平均	提升
16k	7.00%	31.58%	+24.6%
24k	7.04%	22.22%	+15.2%
32k	2.72%	13.83%	+11.1%

显著提升，但 passkey retrieval (S2) 从 0% → 73% (32k) 是最亮眼的。

Falcon Mamba 7B on LongBench：

方法	平均准确率
Vanilla Falcon Mamba	23.4%
LongMamba	26.2% (+2.8%)
Llama2-7B-chat-4k	26.1%
Vicuna-v1.5-7B-16k	30.1%

7B 规模上提升有限（+2.8%），且仍然不如同尺寸 Transformer。

RwR 的机制分析

RwR (Recall with Reasoning) [ref] 来自腾讯 AI Lab，完全不同的思路：不改变 SSM 的状态更新机制，而是通过 CoT 蒸馏教 Mamba 先总结再回答。

核心观察：Mamba 的最后一个 token 的隐状态理论上编码了完整历史（通过 selective state transition）。问题不是"信息不在状态里"，而是"解码时 Mamba 的 implicit attention 偏向最近的 token"。

RwR 的解法：让 Mamba 先把长上下文总结为短摘要（decode from state），然后基于摘要回答（摘要足够短，不会超出有效感受野）。

100k 外推结果：

方法	LONGMEMEVAL S (100k) Avg
Mamba (SFT)	8.0%
DeciMamba	0.2%
RwR	9.8%
RwR + SSA	11.4%
Phi-2 (Transformer)	0.4%
Hymba (Hybrid)	0.0%

有趣的是，在 100k 外推上 Mamba 比 Transformer 和 Hybrid 好很多。但注意：这些模型的训练长度都很短（Mamba 2k, Phi-2 2k），所以这测的更多是"外推能力"而非"长上下文能力"。如果 Transformer 训练在 128k 上，结果会完全不同。

对 distillation 核心论点的影响

LongMamba 不改变信息论下界

LongMamba 的 token filtering 本质是减少有效序列长度。如果你过滤掉了 50% 的 token，你的 global channels 实际只需要处理一半长度的序列。这没有突破 Wen 的 o(n) memory 下界——只是通过启发式方法减少了"有效 n"。

证据：

在 7B 规模（Falcon Mamba + LongBench）上提升有限（+2.8%），仍不如 Transformer
性能随序列长度增加而衰减（16k +24.6% → 32k +11.1%）
在复杂的真实世界任务（multi-doc QA, summarization）上提升远小于合成检索任务

RwR 实际上是在 SSM 框架内模拟"两阶段检索"

RwR 的 summarize-then-answer 策略本质上是把一个长序列检索问题分解为：

生成摘要（利用状态的近似信息）
从摘要中检索（短序列，在 SSM 感受野内）

这绕过了长序列精确检索的困难，但代价是摘要可能丢失关键细节。100k 上 9.8% 的绝对准确率说明了这个代价。

对 distillation 的结论

不需要修改核心论点。 LongMamba 和 RwR 都是缓解措施（mitigation），不是解决方案（solution）。它们的存在反而从操作层面验证了信息论硬边界的影响——如果没有硬边界，就不需要这些精巧的绕行策略。

但值得在 distillation 中补充一段"缓解措施"，说明：

有 training-free 的缓解方法（LongMamba），在合成任务上有效但在真实任务上有限
有 data-driven 的缓解方法（RwR），但绝对性能仍然很低
这些方法的存在不改变"hybrid 架构是必须的"结论，但精确化了"必须"的条件——取决于应用对精确检索的需求程度

一个意外的洞察：LongMamba 的 channel classification 支持 SSM 内部的功能分化

LongMamba 发现 Mamba 的 channels 自然分化为 local 和 global 两类。这很有趣——它暗示 SSM 通过训练内部形成了"分工"：一些 channels 负责局部模式识别（类似卷积），另一些负责全局信息汇聚。

这个功能分化可能部分解释了为什么 SSM 在某些任务上能接近 Transformer：它不是用一种统一的方式处理所有尺度的信息，而是内部分化出了不同尺度的处理通道。

但这也揭示了一个结构性限制：global channels 的数量是固定的（由训练决定），它们的最大感受野也是固定的（由训练序列长度决定）。这和 Attention 的全动态寻址能力有本质区别。

关键引用：

Ye et al. (2025). LongMamba: Enhancing Mamba’s Long Context Capabilities. ICLR 2026. [ref]
Ma et al. (2025). Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory. [ref]
Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet). [ref]