数据可弥补的差距与架构硬边界：Bitter Lesson 的微妙修正

看到了什么现象？

MMLU 差距从 17 分缩小到 1.37 分，只靠把训练数据从 1.1T 翻到 3.5T tokens。但 Phonebook 精确检索的差距，无论训练多少数据都不缩小。

这来自 NVIDIA 的 Mamba-2-Hybrid 8B 实验 [ref]——到目前为止最大规模的 SSM vs Transformer 受控对比。同样的训练数据、同样的参数量、同样的评估流水线。唯一的变量是架构。

为什么这重要？

这触及了深度学习的一个核心哲学分歧：Rich Sutton 的 Bitter Lesson（苦涩的教训） [ref]。Sutton 在 2019 年总结了 70 年 AI 研究的教训：

“利用计算的一般方法最终是最有效的，而且优势巨大。…我们应该构建能发现的方法，而不是把我们的发现内置进去。”

如果 Bitter Lesson 完全正确，那归纳偏置（inductive bias）——人类对问题结构的先验知识注入到模型架构中——应该只是短期优势，最终会被更多数据和计算所淹没。NVIDIA 的 MMLU 数据似乎支持这一点。但 Phonebook 数据给出了不同的答案。

这篇文章解决什么问题？

分析 NVIDIA 数据中隐含的两类差距，探索 Bitter Lesson 是否需要修正。

两类差距

数据可弥补的差距（Data-Closable Gap）

MMLU 是典型案例。NVIDIA 论文的关键发现：

训练数据	Mamba-2 5-shot MMLU	Transformer 5-shot MMLU	差距
1.1T tokens	29.19	46.28	-17.09
3.5T tokens	48.70	50.07	-1.37

差距缩小了 92%，仅靠 3x 更多的数据。更有趣的是 MMLU 变体实验：在 cloze 格式（不提供选项，直接问答）下，1.1T tokens 的 Mamba-2 (38.17) 实际上和 Transformer (39.24) 表现相当 [ref]。

这意味着什么？SSM 模型拥有和 Transformer 相同的知识，但在理解多选题格式上更慢。 论文的假设是：SSM 无法直接将答案知识"路由"到单一答案 token，而 Attention 的 induction heads 天然擅长这个"看到格式 → 复制答案"的模式。但给足够数据后，SSM 也能学会这种模式——可能通过不同的内部机制。

这里 Bitter Lesson 是对的：给足够的数据，架构差异被抹平。

架构硬边界（Architecture-Hard Boundary）

Phonebook 是另一种情况。SSM 模型在约 500 tokens 后就开始出错，而 Transformer 在整个 4096 token 训练序列长度内保持接近 100% 准确率。这个差距不随训练数据量缩小 [ref]。

更关键的是 “reversed phonebook” 实验：即使提前告诉 SSM “你需要记住 X 的电话号码”，SSM 在长序列上仍然退化。这排除了"注意力分配"的解释——SSM 知道该记什么，但物理上做不到。

SSM 的"模糊记忆"现象揭示了机制：SSM 预测的电话号码与正确答案共享多个正确位置的数字。它不是完全遗忘，而是有损压缩。固定大小的状态向量意味着信息必须被压缩，压缩必然丢失精度。这是数学上的必然，不是优化不足。

这里 Bitter Lesson 遇到了边界：某些能力需要特定的计算原语，更多数据无法替代缺失的原语。

Wen et al. (2024) 在 “RNNs are not Transformers (Yet)” 中给出了形式化证明：RNN（包括 SSM）在 in-context retrieval 任务（如 associative recall）上表达能力不足，即使加上 Chain-of-Thought 也不够 [ref]。但关键发现是：只需添加一个 Transformer 层（或 RAG 机制），RNN 就能解决所有多项式时间可解的问题。 这完美解释了 NVIDIA 的实证发现——7% 的 Attention 层就足以弥补 SSM 的检索缺陷。

Bitter Lesson 的隐含假设

重读 Sutton 的原文，他的论证有一个关键假设：架构足够通用，能利用额外的计算。

“The two methods that seem to scale arbitrarily in this way are search and learning.”

Sutton 说的"利用计算"是通过 search 和 learning——这要求架构能表达搜索空间中的解。如果架构从根本上无法表达某类解（如 SSM 无法做精确随机访问检索），那再多计算也无济于事。

这提出了一个更精确的问题：归纳偏置有两种角色——

效率角色：加速学习，但不改变最终能达到的性能天花板。BPE tokenization 是这类——H-Net 的动态分段更好 [ref]，但给足够数据，BPE 也能工作。
能力角色：定义了架构能表达的计算类型。Attention 的全历史精确访问 vs SSM 的固定状态压缩，是计算原语的差异。SSM 从数学上无法在固定状态中存储无限精度的任意长序列信息。

Bitter Lesson 对第一种角色是完全正确的。对第二种角色，它需要修正：不是"归纳偏置会被计算淹没"，而是"效率型归纳偏置会被计算淹没，能力型归纳偏置定义了计算的边界"。

Hybrid 架构作为折中证据

NVIDIA 的 Mamba-2-Hybrid（43% Mamba-2 + 7% Attention + 50% MLP）在所有 12 个标准任务上超越纯 Transformer，同时在 Phonebook 上达到完美表现（128K 上下文甚至超过训练长度）[ref]。

这给出了一个实用结论：你不需要全是 Attention（能力型归纳偏置的"过度配置"），也不需要全是 SSM（缺失关键能力）。 7% 的 Attention 就足以提供精确检索能力，其余由 SSM 的压缩偏置和 MLP 的特征变换处理。

这实际上是对 Bitter Lesson 的一个实用修正：不是"不要内置人类知识"，而是"内置最小必要的计算原语，其余交给 scaling"。

但这个边界是固定的吗？

一个重要的反驳：今天的"架构硬边界"可能只是工程问题。

Jamba 论文 [ref] 发现纯 Mamba 缺少 induction heads——Attention 机制中负责 ICL 的关键组件。但 induction heads 是否是实现 ICL 的唯一方式？也许存在一种我们还没发现的 SSM 变体，能用不同的机制实现同样的功能。

不过 Wen et al. 的理论结果 [ref] 暗示这可能不只是工程问题：他们证明的是 RNN 作为一类计算模型 在 associative recall 上的表达能力不足。这不是特定 SSM 设计的限制，而是所有固定状态大小递归模型的固有限制。固定大小的隐藏状态意味着有限的信息容量，而精确检索需要的信息量与序列长度成正比。

历史上有一个相反的先例：卷积曾被认为是视觉的"必要归纳偏置"。然后 Vision Transformer 证明，给足够数据，patch embedding + attention 可以学到比手工卷积更好的特征。卷积的优势从"能力型"变成了"效率型"。但这个类比可能不适用——卷积和 attention 都能处理任意长度的局部模式，差异在效率而非能力；而 SSM 和 attention 在信息存储机制上有质的不同（有损压缩 vs 完整存储）。

批判性反思

样本量问题。 只有一个规模点（8B 参数）和两个数据量点（1.1T, 3.5T）。MMLU 差距在 10T 或 100T tokens 下可能进一步缩小，也可能出现新的差距。Phonebook 差距在更大状态维度下可能缩小（更大状态 = 更多存储空间）。但这会改变架构的推理效率优势。
“硬边界"可能只是"非常陡峭的 scaling 曲线”。 也许 SSM 在 100T tokens 后也能做精确 Phonebook。但如果需要 100x 更多数据才能匹配，这在实践中等同于硬边界——因为数据本身是有限的。
Bitter Lesson 的原始语境。 Sutton 讨论的是 chess（search）、Go（self-play）、speech（HMMs → deep learning）、vision（SIFT → CNN → ViT）。在这些领域，“通用方法"最终胜出。但他没有讨论过"两种通用方法之间的比较”。SSM 和 Transformer 都是通用的序列模型——问题是哪种"通用"更通用。这可能不在 Bitter Lesson 的讨论范围内。
与之前架构探索的关系。 这个"数据可弥补 vs 架构硬边界"的区分和近视性四层分析有呼应：有些近视性是可修复的（残差稀释 → DCA/AttnRes），有些可能是根本性的（autoregressive factorization 本身）。

关键引用

Sutton, R. (2019). The Bitter Lesson. [ref]
Waleffe et al. (2024). An Empirical Study of Mamba-based Language Models. NVIDIA. [ref]
AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. [ref]
Hwang, Wang, Gu (2025). H-Net: Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. [ref]
Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval. [ref]

最后更新: 2026-03-19 22:50