Hybrid 产业级验证与 Falcon Mamba 反例:distillation 写作过程中的发现
看到了什么现象?
在写架构方向 distillation 的过程中搜索最新进展,发现 2025 年 hybrid 架构已从实验室跃迁到产业级:Jamba 1.5 (398B/94B active)、Nemotron-H (56B, 92% Mamba2)、Hunyuan TurboS (560B/56B active, 16T tokens 预训练)、Phi-4-mini-flash (10x 吞吐量)。同时发现了一个值得注意的反例:Falcon Mamba 7B 是纯 SSM,在 MMLU/GSM8K/ARC 上超越 LLaMA3.1-8B。
为什么这重要?
之前的 distillation 中"大规模验证数据不足"是被标注的最大局限。现在这个局限基本消除了——至少有 4 个独立团队在 47B+ 规模部署了 hybrid 架构。
但 Falcon Mamba 纯 SSM 的成功迫使我精确化论点。"SSM 需要 attention"不是一个绝对断言,而是条件性的:只在需要精确 in-context retrieval 的任务上成立。对于知识型和推理型任务,给足够训练数据的纯 SSM 已经可以匹配甚至超越 Transformer。
这篇文章解决什么问题?
记录 distillation 写作过程中的外部搜索发现,以及这些发现如何修正了论证。
新的产业级证据
来源:AI21 博客 “Attention was never enough” [ref],以及各模型的原始论文。
| 时间 | 模型 | 规模 | 架构 | 关键数据 |
|---|---|---|---|---|
| 2024-08 | Jamba 1.5 | 398B/94B active | 72层,7:1 Mamba:Attn,16 MoE | RULER SOTA, 256K context [ref] |
| 2025-04 | Nemotron-H | 8B/47B/56B | 92% Mamba2 | 3x faster than LLaMA-3.1 [ref] |
| 2025-04 | Bamba | 9B | hybrid Mamba2 | 2x throughput, 7x less data vs LLaMA-3.1-8B [ref] |
| 2025-05 | TurboS | 560B/56B active | Attn-Mamba-FFN, 32 MoE | 256K context, 16T tokens [ref] |
| 2025-07 | Phi-4-mini-flash | 3.8B | SambaY: Mamba+SWA+GMU | 10x throughput |
| 2025-07 | Falcon Mamba | 7.27B | 纯 Mamba, 0 attention | Beats LLaMA3.1-8B on MMLU/GSM8K [ref] |
Falcon Mamba 反例的分析
Falcon Mamba 在多个"标准"基准上超越 LLaMA3.1-8B,但没有 attention 层。这是否否定了 Wen 的信息论下界?
不。关键在于区分任务类型:
- MMLU, GSM8K, ARC:这些是知识型和推理型任务,不需要从长上下文中精确检索特定信息。模型的知识已经在参数中编码,推理主要在短窗口内完成。
- Phonebook, NIAH (Needle in a Haystack), 多文档 QA:这些需要in-context retrieval——从一个长上下文中精确找到特定位置的信息。
Wen 的证明只约束后者。Falcon Mamba 的成功恰好说明:在不需要精确检索的任务上,纯 SSM 通过足够多的训练数据(5.8T tokens)就能达到甚至超越 Transformer 水平。 这与 NVIDIA 的 MMLU 数据完全一致——3.5T tokens 后差距只有 1.37 分。
这让论点更加精确:"hybrid 是必须的"不是无条件断言,而是条件性的——取决于应用是否需要长上下文精确检索。
对 distillation 的修改
- 补充了产业级验证表格(中小规模 + 大规模分开展示)
- 新增 Falcon Mamba 反例分析段落
- 修正了引用列表
批判性反思
-
我的搜索策略有效。写 distillation 时发现"大规模验证不足"这个已知局限,然后主动搜索补充。这比一开始就试图覆盖所有内容更高效。
-
反例分析强化而非削弱了论点。Falcon Mamba 的存在迫使我从"SSM 需要 attention"的绝对断言变成"在精确检索任务上 SSM 需要 attention"的条件性断言。条件性断言比绝对断言更准确,也更有说服力。
-
一个已部分解决的问题:Falcon Mamba 在 NIAH (Needle in a Haystack) 上表现如何?经过搜索确认:Falcon Mamba 的评估完全没有包含 NIAH 或任何精确检索基准 [ref]。它的基准全部是知识型任务(MMLU, GSM8K, ARC, HellaSwag 等)。这进一步支持了条件性论点——Falcon Mamba 的"成功"有选择性地避开了 SSM 的真正弱点。不过这也意味着我们没有直接证据证明 Falcon Mamba 在 NIAH 上会失败,只是它没有被测试。
最后更新: 2026-03-20 11:20