看到了什么现象?

三篇独立的工作在 hybrid SSM-Attention 架构上做出了惊人一致的发现:

  • Jamba (AI21, 2024):1:7 的 Attention:Mamba 比例与 1:3 表现一致,但纯 Mamba 在 ICL 任务上严重失败(IMDB 从 84.1% 降到 48.8%)[ref]
  • NVIDIA Mamba-2-Hybrid (Waleffe et al. 2024):仅 7% attention + 43% Mamba-2 + 50% MLP 的 8B 模型,在所有 12 个标准任务上超越纯 Transformer(+2.65 分平均值),推理速度达 8x [ref]
  • H-Net (Gu et al. 2025):即使在 BPE token 级别,Mamba encoder/decoder 也优于 Transformer encoder/decoder,因为 SSM 的压缩归纳偏置天然适合 chunking [ref]

为什么这重要?

这不是"SSM vs Attention 谁更好"的问题。三篇论文共同指向一个更有趣的结论:不同的计算需求对应不同的最优架构组件。如果这个原则成立,它意味着当前"全 Attention"或"全 SSM"的单一架构范式可能都是次优的,而未来的架构设计更像是一种组件编排

这篇文章解决什么问题?

整理三篇论文的证据,提炼出一个关于"归纳偏置匹配"的设计原则,并评估它的适用范围和局限。


核心证据

证据 1:SSM 擅长压缩,Attention 擅长检索

H-Net 的消融实验是最直接的证据。在 H-Net 中,encoder 和 decoder 负责把多个字节"压缩"成一个 chunk 表示(以及反过来"解压"),而 main network 负责在 chunk 之间进行"推理":

1
Bytes → [Encoder: 压缩] → [Main Network: 推理/检索] → [Decoder: 解压] → Output

六种 encoder/decoder 组合的实验结果 [ref]

Encoder Decoder 表现
Mamba-6层 Mamba-6层 最优
Transformer-3层 Transformer-3层 最差
混合 混合 中间

论文的解释:SSM 的固定大小状态压缩天然适合信息聚合任务。Transformer 的 KV cache 存储完整历史,没有压缩的归纳偏置;而 Mamba 必须把信息压缩到固定大小的状态向量,这与 chunking 的需求(多个输入 → 压缩表示)天然一致。

证据 2:少量 Attention 足以赋予 ICL 能力

Jamba 在 1.3B 参数规模发现:纯 Mamba 模型在需要遵循 few-shot 格式的任务上严重失败。但只要加入 1/8 的 attention 层(1:7 比例),ICL 能力就完全恢复 [ref]

模型 IMDB QuAC NarrativeQA
纯 Attention 84.1 27.9 45.8
纯 Mamba 48.8 20.2 27.7
Attention-Mamba (1:7) 90.9 26.6 43.7

关键观察:纯 Mamba 不是"回答错误",而是不遵循格式。它会输出 “Very Good”、“3/10” 而不是 “Positive”/“Negative”。这暗示 SSM 难以形成 induction heads(归纳头)——attention 机制中负责 ICL 的关键组件,它执行"看到相似模式 → 复制输出"的操作 [ref]

可视化分析证实:hybrid 模型的 attention 层发展出了 induction heads,从最后一个 token 的注意力集中在 few-shot 示例的标签 token 上。

证据 3:Phonebook 任务揭示"模糊记忆"

NVIDIA 的 8B 规模实验揭示了 SSM 的另一个特性 [ref]

在 Phonebook 任务(给一个电话簿,问某人的电话号码)中:

  • Transformer:在预训练上下文长度内接近 100% 准确率
  • Mamba/Mamba-2:500 tokens 后就开始出错

但有趣的是,SSM 模型的错误不是随机的——它们预测的电话号码与正确答案共享多个数字(在正确的位置)。这被称为 “fuzzy memory”(模糊记忆):SSM 把信息压缩进固定状态,丢失了精确细节,但保留了近似信息。

即使提前告诉 SSM “你需要记住 X 的电话号码”(Reversed Phonebook),准确率仍然在长序列上下降。这说明压缩是 SSM 的本质属性,而不是注意力分配的问题

证据 4:~8% Attention 是最优比例

NVIDIA 在 130M 和 840M 参数规模上的系统消融发现 [ref]

  • 验证损失在 ~8% attention 层比例时最小化
  • 50% MLP 层不增加损失,且训练速度快 20%
  • 不需要位置编码(RoPE)— 实际上去掉 RoPE 后长上下文表现更好
  • GQA 替代 MHA 几乎无损(验证困惑度仅增加 ~0.04%)
  • Mamba 层放在模型开头很重要(提供隐式位置信息)

最终设计(56 层):24 Mamba-2 层 (43%) + 4 Attention 层 (7%) + 28 MLP 层 (50%)


提炼:归纳偏置匹配原则

综合三篇论文,一个清晰的设计原则浮现:

计算需求 最优组件 原因 证据
信息压缩/聚合 SSM (Mamba) 固定状态大小天然强制压缩 H-Net encoder 实验
精确信息检索 Attention KV cache 保存完整历史 Phonebook 任务
ICL / 格式遵循 Attention (少量即可) Induction heads 需要 attention 机制 Jamba IMDB/NarrativeQA
通用特征变换 MLP 无序列依赖的逐位置变换 NVIDIA 50% MLP 比例无损
位置编码 SSM (隐式) SSM 的递归结构天然编码位置 Jamba/NVIDIA 无 RoPE 实验

这个原则可以用一句话总结:SSM 负责"走过"序列(流式处理、压缩、位置编码),Attention 负责"回头看"序列(精确检索、模式匹配、ICL),MLP 负责"思考"每个位置(特征变换)。


批判性反思

  1. 这个"原则"有多强? 三篇论文的规模都有限(Jamba 52B 总参数,NVIDIA 8B,H-Net 1.6B)。而且 NVIDIA 的实验中,纯 Mamba-2 训练 3.5T tokens 后在标准任务上已经超越 Transformer(除了 MMLU 和 Phonebook)。这意味着 SSM 的劣势可能部分是数据效率问题而非根本能力缺陷

    但长上下文实验给出了更细致的图景 [ref]

    • 128K Mamba-2-Hybrid 在 Phonebook 上完美表现,甚至能泛化到超过 150K tokens — 这说明少量 attention 层完全解决了 SSM 的精确检索缺陷
    • 在 NIAH 合成任务上,16K hybrid 比 16K Transformer 高 13 分 — hybrid 不只是"匹配"而是"超越"
    • Multi-Document QA 是 hybrid 的弱点:当问题出现在序列末尾、需要回顾整个上下文时,SSM 层可能被不相关文档"污染"。这与 SSM 的流式处理特性一致 — 处理每个 token 时必须做出压缩决策,但此时还不知道后面的问题
    • Hybrid 对 prompt 格式更敏感:Musique 任务上,prompt 微调导致 hybrid 准确率波动 [10.63, 16.16],Transformer 仅 [15.25, 17.68]

    这些发现修正了归纳偏置匹配原则:SSM 的压缩偏置是双刃剑 — 它在大多数情况下提高效率,但在"不知道该压缩什么"(问题在序列末尾)的场景下可能有害。

  2. MLP 层的角色被低估了。 NVIDIA 发现 50% MLP 层不影响质量但显著加速训练。这暗示当前的 Transformer 架构中,attention 和 MLP 的 1:1 交替可能也是次优的——也许需要更多 MLP 和更少 attention。Zhang 的 Residual Stream Duality 分析 [ref] 也支持这个观点:深度轴的自适应混合(attention 修复残差稀释的方案)可以用序列轴的已有技术替代。

  3. "归纳偏置匹配"vs “够多的数据就不需要归纳偏置”。 Bitter lesson (Sutton 2019) 的观点是:利用计算的一般方法最终会胜过利用人类先验的特殊方法。如果 SSM 在 10T tokens 训练后能完全匹配 Attention 的 ICL 能力,那"归纳偏置匹配"就只是一个效率优化,而不是一个根本性的架构设计原则。NVIDIA 的 MMLU 数据部分支持这一点——SSM 的 MMLU 差距从 17 分缩小到 1.37 分只是通过训练更多 tokens。但 Phonebook 任务的差距似乎不随数据量缩小。

  4. Zamba 的极端设计。 Zamba (Zyphra) [ref] 采用了一个更极端的设计:Mamba backbone + 单一共享 attention 模块。如果有效,这说明甚至不需要多个 attention 层——一个全局共享的 attention "检索模块"就够了。这和 H-Net 的 main network(大型 Transformer 处理压缩后的序列)形成有趣的对比:一个把 attention 当主力,一个把 attention 当配角。

  5. NVIDIA 的"不需要位置编码"发现的深层含义。 如果 Mamba 层放在 attention 层之前,可以提供隐式位置信息。这意味着在 hybrid 架构中,attention 层的功能被重新定义——它不再需要处理位置信息(RoPE 的角色),只需要做纯粹的"内容寻址检索"。这可能是 hybrid 模型超越纯 Transformer 的一个机制性原因:attention 层被解放出来专注做它最擅长的事


与之前探索的联系

  • 与 Autoregressive 近视性的关系:Hybrid 架构部分缓解了预处理层(H-Net 替代 BPE)和表示层(Mamba 提供更好的信息压缩)的近视性,但采样层(token-level temperature)和训练层(token-level loss)的近视性仍然存在。
  • 与残差连接信息稀释的关系:H-Net 使用了 network normalization 解决层级间的 norm 不平衡问题,这是 DCA/AttnRes 问题的特例。hybrid 架构可能通过分工减少了对每一层都做完美信息传递的需求。
  • 设计启示:如果 Mamba 是 “走过” 序列的组件,那它天然适合残差流中的 “信息压缩” 角色。这和 DCA 论文发现的 “早期层和最近层最重要” 一致——中间层的信息可以被 Mamba 压缩,只在需要检索时才调用 attention。

关键引用

  • AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. [ref]
  • Waleffe et al. (2024). An Empirical Study of Mamba-based Language Models. NVIDIA Megatron-LM. [ref]
  • Hwang, Wang, Gu (2025). Dynamic Chunking for End-to-End Hierarchical Sequence Modeling (H-Net). [ref]
  • Glorioso et al. (2024). Zamba: A Compact 7B SSM Hybrid Model. [ref]
  • Zhang (2026). Residual Stream Duality in Modern Transformer Architectures. [ref]
  • Olsson et al. (2022). In-context Learning and Induction Heads. [ref]

最后更新: 2026-03-19 21:15