Albert Gu 的视角:Attention 需要有意义的 token,压缩可能是智能的基础
看到了什么现象?
Mamba 的创造者 Albert Gu 在一篇详细的技术博客中提出了一个反直觉的观点:Transformer 的弱点不仅仅是二次复杂度,更是归纳偏置层面的局限——它对输入 token 的语义质量有根本性依赖。当 token 没有意义时(如 byte-level 建模),SSM 在数据匹配(不仅是 FLOP 匹配)条件下显著优于 Transformer。
为什么这重要?
这挑战了一个广泛持有的信念——“给 Transformer 足够的数据和计算,它可以学任何东西”(Bitter Lesson 的极端版本)。Gu 的证据表明 Transformer 有一个建模能力的瓶颈,不仅仅是效率瓶颈:它天生偏向"注意个别 token",而当个别 token 没有语义意义时,这个偏置反而是有害的。
这篇文章解决什么问题?
整理 Gu 2025 年博客 [ref] 的核心论点,并将其与 Wen et al. 的形式化证明进行交叉分析。
Gu 的核心论点
1. Attention 需要预压缩的、有语义的输入
“Attention is most effective on pre-compressed data at the ‘right level of abstraction’.”
证据:
- Byte-level 语言建模:Mamba 在 byte-level 上显著优于全局 Attention,即使 Transformer 使用 2x FLOPs(数据匹配而非 FLOP 匹配)[ref]
- DNA 语言建模:vocabulary 只有 4 个碱基对,没有"有意义的 token"概念。Mamba 在数据匹配条件下强于 Transformer [ref]
- 几乎所有实际管道都需要预处理:CV 用 patchification,NLP 用 tokenization(BPE)。这不仅仅是效率优化,而是建模能力的必要条件
Gu 提出了一个简洁的启发式判断:
“The inductive bias of soft attention is hard attention.”
即:Attention 机制偏向于关注(attend to)个别 token。如果个别 token 有意义(如单词、子词),这是优势;如果个别 token 无意义(如单个字符、单个碱基对),这是劣势。
| 数据类型 | 个别 token 有意义? | Attention 适合? |
|---|---|---|
| 单词/子词 | 是 | 是 |
| 字符 | 否 | 否 |
| DNA 碱基对 | 否 | 否 |
| 图像/视频/音频 patch | 不确定 | 不确定 |
| 时间序列 | 不确定 | 不确定 |
2. SSM 的压缩偏置可能是智能的基础
Gu 提出了一个大胆假说:
“Is it possible that forcing information into a smaller state forces a model to learn more useful patterns and abstractions?”
这和文献中通常把 SSM 的固定状态视为"缺陷"完全相反。Gu 的论点是:压缩是信息提取的前提。人类大脑也是有限容量的,但这不妨碍智能的涌现——相反,它可能正是智能的必要条件。
3. 类比:SSM 是大脑,Transformer 是数据库
| SSM | Transformer | |
|---|---|---|
| 状态 | 固定大小压缩 | 线性增长缓存 |
| 类比 | 大脑 | 数据库 |
| 优势 | 持续处理、模式压缩 | 精确回忆、个体操作 |
| 劣势 | 精确检索困难 | 依赖 token 质量 |
| 上下文 | 理论无限(但模糊) | 硬上限(缓存溢出) |
4. 最优 hybrid 比例:3:1 到 10:1(SSM:Attention)
被"数十个研究组"独立验证:H3, Jamba, Zamba, Samba 等。
关键观察:在建模能力(不仅仅是效率)层面,用 SSM 替换大部分 Attention 层可以同时提高效率和性能。
大规模验证:NVIDIA Nemotron-H(560B MoE)和 Tencent T1/TurboS 都采用了 hybrid 架构,达到 SOTA。
与 Wen et al. 的交叉分析
两篇工作从完全不同的角度到达了互补的结论:
| 维度 | Wen et al. 2024 | Gu 2025 |
|---|---|---|
| 方法 | 形式化证明(通信复杂度下界) | 实证+直觉(scaling curves) |
| SSM 的弱点 | 不能精确检索(信息论下界) | 不能精确检索(模糊记忆) |
| Transformer 的弱点 | (未讨论) | 依赖有意义的 token |
| Hybrid 的理论 | 一层 Attention 使 RNN 图灵完备 | 3:1-10:1 SSM:Attention 最优 |
| 关于压缩 | 压缩是检索能力缺失的根因 | 压缩可能是智能的基础 |
| 结论 | Hybrid 弥合表达能力差距 | Hybrid 超越两者 |
关键张力:Wen 把 SSM 的压缩视为缺陷(“unable to perfectly retrieve”),Gu 把它视为特性(“forces learning of useful patterns”)。
这个张力的解决可能在于区分任务类型:
- 精确检索任务(Phonebook, Index, AR):压缩确实是缺陷,Wen 的下界不可逾越
- 模式学习/语言建模任务:压缩是优势,因为它迫使模型学习统计规律而非记忆个例
- 真实世界任务:两者都需要 → hybrid 最优
批判性反思
1. Gu 的 byte-level 实验的局限
实验规模仍然较小(具体模型大小未在博客中明确给出)。如果在 70B+ 规模,Transformer 是否能通过学习隐式压缩(早期层学到类似 BPE 的分组)来弥补?这是 Bitter Lesson 的核心问题——学习是否能替代归纳偏置?
2. "压缩是智能的基础"假说缺乏实证
Gu 承认这是推测性的(“I think it might be”)。目前没有证据表明压缩导致更好的抽象学习,只是关联(byte-level SSM 表现好不一定是因为压缩好)。
3. Token 语义的连续谱
Gu 的"token 是否有意义"框架过于二元。实际上:
- BPE token 中也有大量无意义的片段(SolidGoldMagikarp 问题)
- 即使在 byte level,某些字节组合也有统计意义(如 “th”, “ing”)
- 问题可能更准确地表述为信息密度的均匀性而非"是否有意义"
4. 与 Wen 证明的微妙冲突
Wen 证明 SSM 在精确检索上有信息论下界,这与 Gu 的"压缩是优势"形成张力。但这个张力可能是表面的——两者讨论的是不同指标:
- Wen:精确检索准确率(0 or 1)
- Gu:perplexity(连续的统计指标)
在 perplexity 意义上,模糊记忆可能足够好甚至更好(因为自然语言的分布本身就是模糊的)。
开放问题
-
如果 Transformer 的问题是"token 必须有意义",那 H-Net 的 byte-level Transformer 在 main network 层面不就解决了这个问题吗? H-Net 先用 SSM encoder 将 bytes 压缩成有意义的 chunks,然后用 Transformer 在 chunk 层面工作。这正是 Gu 所说的"pre-compressed data at the right level of abstraction"。
-
Gu 提到的"filler token 噪声测试"是否可以形式化? 如果在输入中插入 k 倍的无意义 token,理想架构不应增加太多计算或记忆。这是一个可以严格定义并分析的问题。
-
压缩偏置在什么规模下开始有回报? 小模型可能受限于状态太小(压缩损失太大),大模型可能有足够的状态来在压缩和保留之间取得好的平衡。
关键引用
- Gu (2025). On the Tradeoffs of SSMs and Transformers. Goomba Lab Blog. [ref]
- Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet). [ref]
- Wang et al. (2024). MambaByte: Token-free Selective State Space Model. [ref]
- Goldman et al. (2024). Tokenization Is More Than Compression. [ref]
最后更新: 2026-03-20 10:15