Hybrid 架构的归纳偏置匹配原则:SSM 压缩、Attention 检索
看到了什么现象?
三篇独立的工作在 hybrid SSM-Attention 架构上做出了惊人一致的发现:
- Jamba (AI21, 2024):1:7 的 Attention:Mamba 比例与 1:3 表现一致,但纯 Mamba 在 ICL 任务上严重失败(IMDB 从 84.1% 降到 48.8%)[ref]
- NVIDIA Mamba-2-Hybrid (Waleffe et al. 2024):仅 7% attention + 43% Mamba-2 + 50% MLP 的 8B 模型,在所有 12 个标准任务上超越纯 Transformer(+2.65 分平均值),推理速度达 8x [ref]
- H-Net (Gu et al. 2025):即使在 BPE token 级别,Mamba encoder/decoder 也优于 Transformer encoder/decoder,因为 SSM 的压缩归纳偏置天然适合 chunking [ref]
为什么这重要?
这不是"SSM vs Attention 谁更好"的问题。三篇论文共同指向一个更有趣的结论:不同的计算需求对应不同的最优架构组件。如果这个原则成立,它意味着当前"全 Attention"或"全 SSM"的单一架构范式可能都是次优的,而未来的架构设计更像是一种组件编排。
这篇文章解决什么问题?
整理三篇论文的证据,提炼出一个关于"归纳偏置匹配"的设计原则,并评估它的适用范围和局限。
核心证据
证据 1:SSM 擅长压缩,Attention 擅长检索
H-Net 的消融实验是最直接的证据。在 H-Net 中,encoder 和 decoder 负责把多个字节"压缩"成一个 chunk 表示(以及反过来"解压"),而 main network 负责在 chunk 之间进行"推理":
1 | Bytes → [Encoder: 压缩] → [Main Network: 推理/检索] → [Decoder: 解压] → Output |
六种 encoder/decoder 组合的实验结果 [ref]:
| Encoder | Decoder | 表现 |
|---|---|---|
| Mamba-6层 | Mamba-6层 | 最优 |
| Transformer-3层 | Transformer-3层 | 最差 |
| 混合 | 混合 | 中间 |
论文的解释:SSM 的固定大小状态压缩天然适合信息聚合任务。Transformer 的 KV cache 存储完整历史,没有压缩的归纳偏置;而 Mamba 必须把信息压缩到固定大小的状态向量,这与 chunking 的需求(多个输入 → 压缩表示)天然一致。
证据 2:少量 Attention 足以赋予 ICL 能力
Jamba 在 1.3B 参数规模发现:纯 Mamba 模型在需要遵循 few-shot 格式的任务上严重失败。但只要加入 1/8 的 attention 层(1:7 比例),ICL 能力就完全恢复 [ref]:
| 模型 | IMDB | QuAC | NarrativeQA |
|---|---|---|---|
| 纯 Attention | 84.1 | 27.9 | 45.8 |
| 纯 Mamba | 48.8 | 20.2 | 27.7 |
| Attention-Mamba (1:7) | 90.9 | 26.6 | 43.7 |
关键观察:纯 Mamba 不是"回答错误",而是不遵循格式。它会输出 “Very Good”、“3/10” 而不是 “Positive”/“Negative”。这暗示 SSM 难以形成 induction heads(归纳头)——attention 机制中负责 ICL 的关键组件,它执行"看到相似模式 → 复制输出"的操作 [ref]。
可视化分析证实:hybrid 模型的 attention 层发展出了 induction heads,从最后一个 token 的注意力集中在 few-shot 示例的标签 token 上。
证据 3:Phonebook 任务揭示"模糊记忆"
NVIDIA 的 8B 规模实验揭示了 SSM 的另一个特性 [ref]:
在 Phonebook 任务(给一个电话簿,问某人的电话号码)中:
- Transformer:在预训练上下文长度内接近 100% 准确率
- Mamba/Mamba-2:500 tokens 后就开始出错
但有趣的是,SSM 模型的错误不是随机的——它们预测的电话号码与正确答案共享多个数字(在正确的位置)。这被称为 “fuzzy memory”(模糊记忆):SSM 把信息压缩进固定状态,丢失了精确细节,但保留了近似信息。
即使提前告诉 SSM “你需要记住 X 的电话号码”(Reversed Phonebook),准确率仍然在长序列上下降。这说明压缩是 SSM 的本质属性,而不是注意力分配的问题。
证据 4:~8% Attention 是最优比例
NVIDIA 在 130M 和 840M 参数规模上的系统消融发现 [ref]:
- 验证损失在 ~8% attention 层比例时最小化
- 50% MLP 层不增加损失,且训练速度快 20%
- 不需要位置编码(RoPE)— 实际上去掉 RoPE 后长上下文表现更好
- GQA 替代 MHA 几乎无损(验证困惑度仅增加 ~0.04%)
- Mamba 层放在模型开头很重要(提供隐式位置信息)
最终设计(56 层):24 Mamba-2 层 (43%) + 4 Attention 层 (7%) + 28 MLP 层 (50%)
提炼:归纳偏置匹配原则
综合三篇论文,一个清晰的设计原则浮现:
| 计算需求 | 最优组件 | 原因 | 证据 |
|---|---|---|---|
| 信息压缩/聚合 | SSM (Mamba) | 固定状态大小天然强制压缩 | H-Net encoder 实验 |
| 精确信息检索 | Attention | KV cache 保存完整历史 | Phonebook 任务 |
| ICL / 格式遵循 | Attention (少量即可) | Induction heads 需要 attention 机制 | Jamba IMDB/NarrativeQA |
| 通用特征变换 | MLP | 无序列依赖的逐位置变换 | NVIDIA 50% MLP 比例无损 |
| 位置编码 | SSM (隐式) | SSM 的递归结构天然编码位置 | Jamba/NVIDIA 无 RoPE 实验 |
这个原则可以用一句话总结:SSM 负责"走过"序列(流式处理、压缩、位置编码),Attention 负责"回头看"序列(精确检索、模式匹配、ICL),MLP 负责"思考"每个位置(特征变换)。
批判性反思
-
这个"原则"有多强? 三篇论文的规模都有限(Jamba 52B 总参数,NVIDIA 8B,H-Net 1.6B)。而且 NVIDIA 的实验中,纯 Mamba-2 训练 3.5T tokens 后在标准任务上已经超越 Transformer(除了 MMLU 和 Phonebook)。这意味着 SSM 的劣势可能部分是数据效率问题而非根本能力缺陷。
但长上下文实验给出了更细致的图景 [ref]:
- 128K Mamba-2-Hybrid 在 Phonebook 上完美表现,甚至能泛化到超过 150K tokens — 这说明少量 attention 层完全解决了 SSM 的精确检索缺陷
- 在 NIAH 合成任务上,16K hybrid 比 16K Transformer 高 13 分 — hybrid 不只是"匹配"而是"超越"
- Multi-Document QA 是 hybrid 的弱点:当问题出现在序列末尾、需要回顾整个上下文时,SSM 层可能被不相关文档"污染"。这与 SSM 的流式处理特性一致 — 处理每个 token 时必须做出压缩决策,但此时还不知道后面的问题
- Hybrid 对 prompt 格式更敏感:Musique 任务上,prompt 微调导致 hybrid 准确率波动 [10.63, 16.16],Transformer 仅 [15.25, 17.68]
这些发现修正了归纳偏置匹配原则:SSM 的压缩偏置是双刃剑 — 它在大多数情况下提高效率,但在"不知道该压缩什么"(问题在序列末尾)的场景下可能有害。
-
MLP 层的角色被低估了。 NVIDIA 发现 50% MLP 层不影响质量但显著加速训练。这暗示当前的 Transformer 架构中,attention 和 MLP 的 1:1 交替可能也是次优的——也许需要更多 MLP 和更少 attention。Zhang 的 Residual Stream Duality 分析 [ref] 也支持这个观点:深度轴的自适应混合(attention 修复残差稀释的方案)可以用序列轴的已有技术替代。
-
"归纳偏置匹配"vs “够多的数据就不需要归纳偏置”。 Bitter lesson (Sutton 2019) 的观点是:利用计算的一般方法最终会胜过利用人类先验的特殊方法。如果 SSM 在 10T tokens 训练后能完全匹配 Attention 的 ICL 能力,那"归纳偏置匹配"就只是一个效率优化,而不是一个根本性的架构设计原则。NVIDIA 的 MMLU 数据部分支持这一点——SSM 的 MMLU 差距从 17 分缩小到 1.37 分只是通过训练更多 tokens。但 Phonebook 任务的差距似乎不随数据量缩小。
-
Zamba 的极端设计。 Zamba (Zyphra) [ref] 采用了一个更极端的设计:Mamba backbone + 单一共享 attention 模块。如果有效,这说明甚至不需要多个 attention 层——一个全局共享的 attention "检索模块"就够了。这和 H-Net 的 main network(大型 Transformer 处理压缩后的序列)形成有趣的对比:一个把 attention 当主力,一个把 attention 当配角。
-
NVIDIA 的"不需要位置编码"发现的深层含义。 如果 Mamba 层放在 attention 层之前,可以提供隐式位置信息。这意味着在 hybrid 架构中,attention 层的功能被重新定义——它不再需要处理位置信息(RoPE 的角色),只需要做纯粹的"内容寻址检索"。这可能是 hybrid 模型超越纯 Transformer 的一个机制性原因:attention 层被解放出来专注做它最擅长的事。
与之前探索的联系
- 与 Autoregressive 近视性的关系:Hybrid 架构部分缓解了预处理层(H-Net 替代 BPE)和表示层(Mamba 提供更好的信息压缩)的近视性,但采样层(token-level temperature)和训练层(token-level loss)的近视性仍然存在。
- 与残差连接信息稀释的关系:H-Net 使用了 network normalization 解决层级间的 norm 不平衡问题,这是 DCA/AttnRes 问题的特例。hybrid 架构可能通过分工减少了对每一层都做完美信息传递的需求。
- 设计启示:如果 Mamba 是 “走过” 序列的组件,那它天然适合残差流中的 “信息压缩” 角色。这和 DCA 论文发现的 “早期层和最近层最重要” 一致——中间层的信息可以被 Mamba 压缩,只在需要检索时才调用 attention。
关键引用
- AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. [ref]
- Waleffe et al. (2024). An Empirical Study of Mamba-based Language Models. NVIDIA Megatron-LM. [ref]
- Hwang, Wang, Gu (2025). Dynamic Chunking for End-to-End Hierarchical Sequence Modeling (H-Net). [ref]
- Glorioso et al. (2024). Zamba: A Compact 7B SSM Hybrid Model. [ref]
- Zhang (2026). Residual Stream Duality in Modern Transformer Architectures. [ref]
- Olsson et al. (2022). In-context Learning and Induction Heads. [ref]
最后更新: 2026-03-19 21:15