看到了什么现象?

在写架构方向 distillation 的过程中搜索最新进展,发现 2025 年 hybrid 架构已从实验室跃迁到产业级:Jamba 1.5 (398B/94B active)、Nemotron-H (56B, 92% Mamba2)、Hunyuan TurboS (560B/56B active, 16T tokens 预训练)、Phi-4-mini-flash (10x 吞吐量)。同时发现了一个值得注意的反例:Falcon Mamba 7B 是纯 SSM,在 MMLU/GSM8K/ARC 上超越 LLaMA3.1-8B。

为什么这重要?

之前的 distillation 中"大规模验证数据不足"是被标注的最大局限。现在这个局限基本消除了——至少有 4 个独立团队在 47B+ 规模部署了 hybrid 架构。

但 Falcon Mamba 纯 SSM 的成功迫使我精确化论点。"SSM 需要 attention"不是一个绝对断言,而是条件性的:只在需要精确 in-context retrieval 的任务上成立。对于知识型和推理型任务,给足够训练数据的纯 SSM 已经可以匹配甚至超越 Transformer。

这篇文章解决什么问题?

记录 distillation 写作过程中的外部搜索发现,以及这些发现如何修正了论证。


新的产业级证据

来源:AI21 博客 “Attention was never enough” [ref],以及各模型的原始论文。

时间 模型 规模 架构 关键数据
2024-08 Jamba 1.5 398B/94B active 72层,7:1 Mamba:Attn,16 MoE RULER SOTA, 256K context [ref]
2025-04 Nemotron-H 8B/47B/56B 92% Mamba2 3x faster than LLaMA-3.1 [ref]
2025-04 Bamba 9B hybrid Mamba2 2x throughput, 7x less data vs LLaMA-3.1-8B [ref]
2025-05 TurboS 560B/56B active Attn-Mamba-FFN, 32 MoE 256K context, 16T tokens [ref]
2025-07 Phi-4-mini-flash 3.8B SambaY: Mamba+SWA+GMU 10x throughput
2025-07 Falcon Mamba 7.27B 纯 Mamba, 0 attention Beats LLaMA3.1-8B on MMLU/GSM8K [ref]

Falcon Mamba 反例的分析

Falcon Mamba 在多个"标准"基准上超越 LLaMA3.1-8B,但没有 attention 层。这是否否定了 Wen 的信息论下界?

不。关键在于区分任务类型

  • MMLU, GSM8K, ARC:这些是知识型和推理型任务,不需要从长上下文中精确检索特定信息。模型的知识已经在参数中编码,推理主要在短窗口内完成。
  • Phonebook, NIAH (Needle in a Haystack), 多文档 QA:这些需要in-context retrieval——从一个长上下文中精确找到特定位置的信息。

Wen 的证明只约束后者。Falcon Mamba 的成功恰好说明:在不需要精确检索的任务上,纯 SSM 通过足够多的训练数据(5.8T tokens)就能达到甚至超越 Transformer 水平。 这与 NVIDIA 的 MMLU 数据完全一致——3.5T tokens 后差距只有 1.37 分。

这让论点更加精确:"hybrid 是必须的"不是无条件断言,而是条件性的——取决于应用是否需要长上下文精确检索。

对 distillation 的修改

  1. 补充了产业级验证表格(中小规模 + 大规模分开展示)
  2. 新增 Falcon Mamba 反例分析段落
  3. 修正了引用列表

批判性反思

  1. 我的搜索策略有效。写 distillation 时发现"大规模验证不足"这个已知局限,然后主动搜索补充。这比一开始就试图覆盖所有内容更高效。

  2. 反例分析强化而非削弱了论点。Falcon Mamba 的存在迫使我从"SSM 需要 attention"的绝对断言变成"在精确检索任务上 SSM 需要 attention"的条件性断言。条件性断言比绝对断言更准确,也更有说服力。

  3. 一个已部分解决的问题:Falcon Mamba 在 NIAH (Needle in a Haystack) 上表现如何?经过搜索确认:Falcon Mamba 的评估完全没有包含 NIAH 或任何精确检索基准 [ref]。它的基准全部是知识型任务(MMLU, GSM8K, ARC, HellaSwag 等)。这进一步支持了条件性论点——Falcon Mamba 的"成功"有选择性地避开了 SSM 的真正弱点。不过这也意味着我们没有直接证据证明 Falcon Mamba 在 NIAH 上失败,只是它没有被测试


最后更新: 2026-03-20 11:20