看到了什么现象?

MMLU 差距从 17 分缩小到 1.37 分,只靠把训练数据从 1.1T 翻到 3.5T tokens。但 Phonebook 精确检索的差距,无论训练多少数据都不缩小。

这来自 NVIDIA 的 Mamba-2-Hybrid 8B 实验 [ref]——到目前为止最大规模的 SSM vs Transformer 受控对比。同样的训练数据、同样的参数量、同样的评估流水线。唯一的变量是架构。

为什么这重要?

这触及了深度学习的一个核心哲学分歧:Rich Sutton 的 Bitter Lesson(苦涩的教训) [ref]。Sutton 在 2019 年总结了 70 年 AI 研究的教训:

“利用计算的一般方法最终是最有效的,而且优势巨大。…我们应该构建能发现的方法,而不是把我们的发现内置进去。”

如果 Bitter Lesson 完全正确,那归纳偏置(inductive bias)——人类对问题结构的先验知识注入到模型架构中——应该只是短期优势,最终会被更多数据和计算所淹没。NVIDIA 的 MMLU 数据似乎支持这一点。但 Phonebook 数据给出了不同的答案。

这篇文章解决什么问题?

分析 NVIDIA 数据中隐含的两类差距,探索 Bitter Lesson 是否需要修正。


两类差距

数据可弥补的差距(Data-Closable Gap)

MMLU 是典型案例。NVIDIA 论文的关键发现:

训练数据 Mamba-2 5-shot MMLU Transformer 5-shot MMLU 差距
1.1T tokens 29.19 46.28 -17.09
3.5T tokens 48.70 50.07 -1.37

差距缩小了 92%,仅靠 3x 更多的数据。更有趣的是 MMLU 变体实验:在 cloze 格式(不提供选项,直接问答)下,1.1T tokens 的 Mamba-2 (38.17) 实际上和 Transformer (39.24) 表现相当 [ref]

这意味着什么?SSM 模型拥有和 Transformer 相同的知识,但在理解多选题格式上更慢。 论文的假设是:SSM 无法直接将答案知识"路由"到单一答案 token,而 Attention 的 induction heads 天然擅长这个"看到格式 → 复制答案"的模式。但给足够数据后,SSM 也能学会这种模式——可能通过不同的内部机制。

这里 Bitter Lesson 是对的:给足够的数据,架构差异被抹平。

架构硬边界(Architecture-Hard Boundary)

Phonebook 是另一种情况。SSM 模型在约 500 tokens 后就开始出错,而 Transformer 在整个 4096 token 训练序列长度内保持接近 100% 准确率。这个差距不随训练数据量缩小 [ref]

更关键的是 “reversed phonebook” 实验:即使提前告诉 SSM “你需要记住 X 的电话号码”,SSM 在长序列上仍然退化。这排除了"注意力分配"的解释——SSM 知道该记什么,但物理上做不到。

SSM 的"模糊记忆"现象揭示了机制:SSM 预测的电话号码与正确答案共享多个正确位置的数字。它不是完全遗忘,而是有损压缩。固定大小的状态向量意味着信息必须被压缩,压缩必然丢失精度。这是数学上的必然,不是优化不足。

这里 Bitter Lesson 遇到了边界:某些能力需要特定的计算原语,更多数据无法替代缺失的原语。

Wen et al. (2024) 在 “RNNs are not Transformers (Yet)” 中给出了形式化证明:RNN(包括 SSM)在 in-context retrieval 任务(如 associative recall)上表达能力不足,即使加上 Chain-of-Thought 也不够 [ref]。但关键发现是:只需添加一个 Transformer 层(或 RAG 机制),RNN 就能解决所有多项式时间可解的问题。 这完美解释了 NVIDIA 的实证发现——7% 的 Attention 层就足以弥补 SSM 的检索缺陷。


Bitter Lesson 的隐含假设

重读 Sutton 的原文,他的论证有一个关键假设:架构足够通用,能利用额外的计算。

“The two methods that seem to scale arbitrarily in this way are search and learning.”

Sutton 说的"利用计算"是通过 search 和 learning——这要求架构能表达搜索空间中的解。如果架构从根本上无法表达某类解(如 SSM 无法做精确随机访问检索),那再多计算也无济于事。

这提出了一个更精确的问题:归纳偏置有两种角色——

  1. 效率角色:加速学习,但不改变最终能达到的性能天花板。BPE tokenization 是这类——H-Net 的动态分段更好 [ref],但给足够数据,BPE 也能工作。

  2. 能力角色:定义了架构能表达的计算类型。Attention 的全历史精确访问 vs SSM 的固定状态压缩,是计算原语的差异。SSM 从数学上无法在固定状态中存储无限精度的任意长序列信息。

Bitter Lesson 对第一种角色是完全正确的。对第二种角色,它需要修正:不是"归纳偏置会被计算淹没",而是"效率型归纳偏置会被计算淹没,能力型归纳偏置定义了计算的边界"。


Hybrid 架构作为折中证据

NVIDIA 的 Mamba-2-Hybrid(43% Mamba-2 + 7% Attention + 50% MLP)在所有 12 个标准任务上超越纯 Transformer,同时在 Phonebook 上达到完美表现(128K 上下文甚至超过训练长度)[ref]

这给出了一个实用结论:你不需要全是 Attention(能力型归纳偏置的"过度配置"),也不需要全是 SSM(缺失关键能力)。 7% 的 Attention 就足以提供精确检索能力,其余由 SSM 的压缩偏置和 MLP 的特征变换处理。

这实际上是对 Bitter Lesson 的一个实用修正:不是"不要内置人类知识",而是"内置最小必要的计算原语,其余交给 scaling"。


但这个边界是固定的吗?

一个重要的反驳:今天的"架构硬边界"可能只是工程问题。

Jamba 论文 [ref] 发现纯 Mamba 缺少 induction heads——Attention 机制中负责 ICL 的关键组件。但 induction heads 是否是实现 ICL 的唯一方式?也许存在一种我们还没发现的 SSM 变体,能用不同的机制实现同样的功能。

不过 Wen et al. 的理论结果 [ref] 暗示这可能不只是工程问题:他们证明的是 RNN 作为一类计算模型 在 associative recall 上的表达能力不足。这不是特定 SSM 设计的限制,而是所有固定状态大小递归模型的固有限制。固定大小的隐藏状态意味着有限的信息容量,而精确检索需要的信息量与序列长度成正比。

历史上有一个相反的先例:卷积曾被认为是视觉的"必要归纳偏置"。然后 Vision Transformer 证明,给足够数据,patch embedding + attention 可以学到比手工卷积更好的特征。卷积的优势从"能力型"变成了"效率型"。但这个类比可能不适用——卷积和 attention 都能处理任意长度的局部模式,差异在效率而非能力;而 SSM 和 attention 在信息存储机制上有质的不同(有损压缩 vs 完整存储)。


批判性反思

  1. 样本量问题。 只有一个规模点(8B 参数)和两个数据量点(1.1T, 3.5T)。MMLU 差距在 10T 或 100T tokens 下可能进一步缩小,也可能出现新的差距。Phonebook 差距在更大状态维度下可能缩小(更大状态 = 更多存储空间)。但这会改变架构的推理效率优势。

  2. “硬边界"可能只是"非常陡峭的 scaling 曲线”。 也许 SSM 在 100T tokens 后也能做精确 Phonebook。但如果需要 100x 更多数据才能匹配,这在实践中等同于硬边界——因为数据本身是有限的。

  3. Bitter Lesson 的原始语境。 Sutton 讨论的是 chess(search)、Go(self-play)、speech(HMMs → deep learning)、vision(SIFT → CNN → ViT)。在这些领域,“通用方法"最终胜出。但他没有讨论过"两种通用方法之间的比较”。SSM 和 Transformer 都是通用的序列模型——问题是哪种"通用"更通用。这可能不在 Bitter Lesson 的讨论范围内。

  4. 与之前架构探索的关系。 这个"数据可弥补 vs 架构硬边界"的区分和近视性四层分析有呼应:有些近视性是可修复的(残差稀释 → DCA/AttnRes),有些可能是根本性的(autoregressive factorization 本身)。


关键引用

  • Sutton, R. (2019). The Bitter Lesson. [ref]
  • Waleffe et al. (2024). An Empirical Study of Mamba-based Language Models. NVIDIA. [ref]
  • AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. [ref]
  • Hwang, Wang, Gu (2025). H-Net: Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. [ref]
  • Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval. [ref]

最后更新: 2026-03-19 22:50