Albert Gu 的视角：Attention 需要有意义的 token，压缩可能是智能的基础

看到了什么现象？

Mamba 的创造者 Albert Gu 在一篇详细的技术博客中提出了一个反直觉的观点：Transformer 的弱点不仅仅是二次复杂度，更是归纳偏置层面的局限——它对输入 token 的语义质量有根本性依赖。当 token 没有意义时（如 byte-level 建模），SSM 在数据匹配（不仅是 FLOP 匹配）条件下显著优于 Transformer。

为什么这重要？

这挑战了一个广泛持有的信念——“给 Transformer 足够的数据和计算，它可以学任何东西”（Bitter Lesson 的极端版本）。Gu 的证据表明 Transformer 有一个建模能力的瓶颈，不仅仅是效率瓶颈：它天生偏向"注意个别 token"，而当个别 token 没有语义意义时，这个偏置反而是有害的。

这篇文章解决什么问题？

整理 Gu 2025 年博客 [ref] 的核心论点，并将其与 Wen et al. 的形式化证明进行交叉分析。

Gu 的核心论点

1. Attention 需要预压缩的、有语义的输入

“Attention is most effective on pre-compressed data at the ‘right level of abstraction’.”

证据：

Byte-level 语言建模：Mamba 在 byte-level 上显著优于全局 Attention，即使 Transformer 使用 2x FLOPs（数据匹配而非 FLOP 匹配）[ref]
DNA 语言建模：vocabulary 只有 4 个碱基对，没有"有意义的 token"概念。Mamba 在数据匹配条件下强于 Transformer [ref]
几乎所有实际管道都需要预处理：CV 用 patchification，NLP 用 tokenization（BPE）。这不仅仅是效率优化，而是建模能力的必要条件

Gu 提出了一个简洁的启发式判断：

“The inductive bias of soft attention is hard attention.”

即：Attention 机制偏向于关注（attend to）个别 token。如果个别 token 有意义（如单词、子词），这是优势；如果个别 token 无意义（如单个字符、单个碱基对），这是劣势。

数据类型	个别 token 有意义？	Attention 适合？
单词/子词	是	是
字符	否	否
DNA 碱基对	否	否
图像/视频/音频 patch	不确定	不确定
时间序列	不确定	不确定

2. SSM 的压缩偏置可能是智能的基础

Gu 提出了一个大胆假说：

“Is it possible that forcing information into a smaller state forces a model to learn more useful patterns and abstractions?”

这和文献中通常把 SSM 的固定状态视为"缺陷"完全相反。Gu 的论点是：压缩是信息提取的前提。人类大脑也是有限容量的，但这不妨碍智能的涌现——相反，它可能正是智能的必要条件。

3. 类比：SSM 是大脑，Transformer 是数据库

	SSM	Transformer
状态	固定大小压缩	线性增长缓存
类比	大脑	数据库
优势	持续处理、模式压缩	精确回忆、个体操作
劣势	精确检索困难	依赖 token 质量
上下文	理论无限（但模糊）	硬上限（缓存溢出）

4. 最优 hybrid 比例：3:1 到 10:1（SSM:Attention）

被"数十个研究组"独立验证：H3, Jamba, Zamba, Samba 等。

关键观察：在建模能力（不仅仅是效率）层面，用 SSM 替换大部分 Attention 层可以同时提高效率和性能。

大规模验证：NVIDIA Nemotron-H（560B MoE）和 Tencent T1/TurboS 都采用了 hybrid 架构，达到 SOTA。

与 Wen et al. 的交叉分析

两篇工作从完全不同的角度到达了互补的结论：

维度	Wen et al. 2024	Gu 2025
方法	形式化证明（通信复杂度下界）	实证+直觉（scaling curves）
SSM 的弱点	不能精确检索（信息论下界）	不能精确检索（模糊记忆）
Transformer 的弱点	（未讨论）	依赖有意义的 token
Hybrid 的理论	一层 Attention 使 RNN 图灵完备	3:1-10:1 SSM:Attention 最优
关于压缩	压缩是检索能力缺失的根因	压缩可能是智能的基础
结论	Hybrid 弥合表达能力差距	Hybrid 超越两者

关键张力：Wen 把 SSM 的压缩视为缺陷（“unable to perfectly retrieve”），Gu 把它视为特性（“forces learning of useful patterns”）。

这个张力的解决可能在于区分任务类型：

精确检索任务（Phonebook, Index, AR）：压缩确实是缺陷，Wen 的下界不可逾越
模式学习/语言建模任务：压缩是优势，因为它迫使模型学习统计规律而非记忆个例
真实世界任务：两者都需要 → hybrid 最优

批判性反思

1. Gu 的 byte-level 实验的局限

实验规模仍然较小（具体模型大小未在博客中明确给出）。如果在 70B+ 规模，Transformer 是否能通过学习隐式压缩（早期层学到类似 BPE 的分组）来弥补？这是 Bitter Lesson 的核心问题——学习是否能替代归纳偏置？

2. "压缩是智能的基础"假说缺乏实证

Gu 承认这是推测性的（“I think it might be”）。目前没有证据表明压缩导致更好的抽象学习，只是关联（byte-level SSM 表现好不一定是因为压缩好）。

3. Token 语义的连续谱

Gu 的"token 是否有意义"框架过于二元。实际上：

BPE token 中也有大量无意义的片段（SolidGoldMagikarp 问题）
即使在 byte level，某些字节组合也有统计意义（如 “th”, “ing”）
问题可能更准确地表述为信息密度的均匀性而非"是否有意义"

4. 与 Wen 证明的微妙冲突

Wen 证明 SSM 在精确检索上有信息论下界，这与 Gu 的"压缩是优势"形成张力。但这个张力可能是表面的——两者讨论的是不同指标：

Wen：精确检索准确率（0 or 1）
Gu：perplexity（连续的统计指标）

在 perplexity 意义上，模糊记忆可能足够好甚至更好（因为自然语言的分布本身就是模糊的）。

开放问题

如果 Transformer 的问题是"token 必须有意义"，那 H-Net 的 byte-level Transformer 在 main network 层面不就解决了这个问题吗？ H-Net 先用 SSM encoder 将 bytes 压缩成有意义的 chunks，然后用 Transformer 在 chunk 层面工作。这正是 Gu 所说的"pre-compressed data at the right level of abstraction"。
Gu 提到的"filler token 噪声测试"是否可以形式化？ 如果在输入中插入 k 倍的无意义 token，理想架构不应增加太多计算或记忆。这是一个可以严格定义并分析的问题。
压缩偏置在什么规模下开始有回报？ 小模型可能受限于状态太小（压缩损失太大），大模型可能有足够的状态来在压缩和保留之间取得好的平衡。

关键引用

Gu (2025). On the Tradeoffs of SSMs and Transformers. Goomba Lab Blog. [ref]
Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet). [ref]
Wang et al. (2024). MambaByte: Token-free Selective State Space Model. [ref]
Goldman et al. (2024). Tokenization Is More Than Compression. [ref]

最后更新: 2026-03-20 10:15