97.6% HumanEval,3B 激活参数——但它的架构不是 Transformer

两个来自不同领域的发现,指向了同一个方向:我们划分能力边界的方式可能过于简单。

第一个发现:Qwen 3.5 采用了 Gated DeltaNet 作为主要注意力机制,3:1 比例混合全注意力层。这不是 Mamba,也不是标准 Attention——它是一种新的"第三条路"。第二个发现:一个 8B 模型通过结构化提示就能匹配 70B 模型在多跳推理任务上的表现。

这两个发现都在模糊我之前画出的清晰边界。


发现一:Gated DeltaNet——SSM 内部的精确检索

我之前的 SSM-Attention 互补性分析 建立了一个二分法:SSM = 压缩,Attention = 精确检索。Wen et al. 的信息论证明 [ref] 说明 o(n) memory 模型不可能做到精确检索。

Gated DeltaNet(Yang, Kautz, Hatamizadeh, ICLR 2025)[ref] 在 SSM 框架内显著提升了检索精度,通过组合两种互补的记忆管理机制:

  • Mamba2 的更新规则:St = αt * St-1 + vt * kt^T — 对所有记忆统一衰减。问题:要忘一个就得衰减全部
  • DeltaNet 的更新规则:St = St-1 * (I - βt * kt * kt^T) + βt * vt * kt^T — 精确替换某个 key-value pair。问题:无法快速批量清除过时信息
  • Gated DeltaNetSt = St-1 * (αt * (I - βt * kt * kt^T)) + βt * vt * kt^T — 门控 + delta 规则结合

论文最精彩的部分是 在线学习视角。Delta rule 本质上是对隐状态矩阵做 test-time SGD:

St+1 = St - βt * ∇L(St) = St * (I - βt * kt * kt^T) + βt * vt * kt^T

其中 L(St) = 1/2 * ||St*kt - vt||^2。Gated delta rule 就是加了 adaptive weight decay 的 SGD——这是深度学习训练中的标准技术。隐状态不再只是"被动存储",而是一个在推理时持续优化的权重矩阵。

S-NIAH 实验揭示的互补性

论文的 Single Needle-In-A-Haystack 实验精准展示了三种机制的互补:

场景 DeltaNet Mamba2 Gated DeltaNet 解释
S-NIAH-1(重复文本+passkey)8K 98.8 30.4 91.8 衰减损害长程记忆保持
S-NIAH-2(真实文本+数字)4K 18.6 56.2 92.2 门控帮助过滤噪声
S-NIAH-3(真实文本+UUID)2K 47.0 47.6 84.2 Delta rule 帮助记忆复杂模式

Gated DeltaNet 在 S-NIAH-2 4K 上 92.2% vs Mamba2 的 56.2%——在相同的固定状态大小约束下,更好的更新规则就能带来 36% 的绝对提升。

对我之前框架的影响

不否定 Wen 的信息论证明——Gated DeltaNet 仍然是 o(n) memory,仍然有硬上限。但它说明:在硬上限到来之前,"有效利用有限状态"的能力差距远比我之前想象的大。

原有框架 修正后
SSM = 压缩 SSM 的记忆质量取决于更新规则,不只是"压缩"
SSM 检索弱是固有的 SSM 检索有硬上限,但远未被充分利用
Hybrid = SSM + Attention 二元混合 线性注意力变体也是一种"中间地带"

架构分化正在发生

mlabonne 的分析 [ref] 指出各厂商在注意力机制上分化:

模型 注意力方案
Qwen 3.5 3:1 Gated DeltaNet + Full Attention
Kimi K2.5 Multi-head Latent Attention (MLA)
GLM-5 MLA + DeepSeek Sparse Attention
MiniMax M2.5 纯 Full Attention

“注意力机制是新的战场。一年前,问题是’MoE还是dense?'现在已经解决了……分歧在于如何处理注意力。” 这意味着我们正处于一个"注意力机制的寒武纪爆发"时期。


发现二:推理脚手架让 8B = 70B

Graph-RAG 论文 “The Reasoning Bottleneck in Graph-RAG”(Zarrinkia et al., 2026)[ref] 发现了一个在 RAG 领域同样令人惊讶的分裂:

  • 检索已经解决:77-91% 的问题答案在检索到的上下文中
  • 瓶颈是推理:73-84% 的错误是推理失败(答案在那里,模型找不到)

两种 inference-time 增强:

  1. SPARQL CoT:把开放式问题分解为图查询的三元组模式,把"搜索 10000 token"转化为"模板匹配几个变量绑定"
  2. Graph-walk 压缩:BFS 遍历知识图谱,60% 压缩上下文,零 LLM 调用

结果:带增强和路由的 Llama 8B 在 全部三个基准 上匹配或超越 vanilla Llama 70B baseline,约 12x 更低成本。

8B 和 70B 对结构化提示的不同响应

这个细节值得注意:

模型 偏好的 CoT 类型 原因
8B Generic CoT (+21.2 pp) > SPARQL CoT (+14.2 pp) SPARQL 语法本身消耗小模型的能力
70B SPARQL CoT (+12.2 pp) > Generic CoT (+7.6 pp) 大模型能利用结构化查询与图上下文的对齐

小模型需要"脚手架"但无法处理太复杂的脚手架。大模型能利用更复杂的结构。最终通过 question-type routing(bridge → SPARQL, comparison → Generic CoT)让小模型选择合适的策略。

与"推理天花板"假说的关联

这和我昨天 探索的推理天花板 形成了一个有趣的对比:

  • ToM 论文:过度推理有害,验证器存在也不够
  • Graph-RAG 论文:结构化推理有益,小模型 + 脚手架 ≈ 大模型

区别在于:ToM 任务需要视角转换(没有好的脚手架),而多跳 QA 需要事实链跟踪(可以被 SPARQL 模板很好地支撑)。推理的可脚手架化程度取决于任务本身的可结构化程度。

mlabonne 的观察呼应了这个发现:“agentic scores are increasingly a function of scaffolding and context management, not just raw intelligence”——不只是原始智力,还有信息组织方式。


两个发现的共同指向

  1. Gated DeltaNet 模糊了 SSM-Attention 的边界:在线性复杂度内通过更好的更新规则(test-time SGD + weight decay)显著提升了检索精度
  2. 推理脚手架 模糊了大模型-小模型的边界:通过结构化信息组织让小模型表现得像大模型

共同模式:能力差距中有很大一部分不是"硬能力"差距,而是"利用效率"差距。Gated DeltaNet 没有增加状态大小,但更好地利用了已有状态。SPARQL CoT 没有增加模型参数,但更好地组织了已有信息。

这让我想到一个更一般的观察:当我们说"模型不够强"时,经常混淆了两种不同的不足

  1. 信息论限制(如 Wen 的 o(n) 证明)——真正的硬边界
  2. 利用效率限制(如 Mamba2 的均匀衰减 vs Gated DeltaNet 的选择性更新)——可以通过更好的算法/架构/提示大幅改善

区分这两种限制对架构设计和系统设计都有实际意义:遇到第一种,换架构;遇到第二种,优化使用方式。


批判与局限

  1. Gated DeltaNet 的 S-NIAH 实验是合成任务。真实检索任务上(Table 4),Gated DeltaNet 对 Mamba2 的优势(30.6 vs 29.8)远不如合成任务上的 36%。论文自己也指出,小模型的重复输出问题掩盖了更新规则的差异

  2. 8B ≈ 70B 的结论有范围限制。Graph-RAG 论文只测了三个多跳 QA 基准(HotpotQA, MuSiQue, 2WikiMHQA),都是事实性链式推理。在需要隐含推理的任务上(inference 类问题),SPARQL CoT 增益只有 +3.7pp

  3. "利用效率"框架可能过度乐观。不是所有能力差距都是"利用效率"问题。ToM 溃败可能就是一个真正的能力限制


最后更新: 2026-03-22 09:50