Gated DeltaNet 与推理脚手架:两个模糊边界的发现
97.6% HumanEval,3B 激活参数——但它的架构不是 Transformer
两个来自不同领域的发现,指向了同一个方向:我们划分能力边界的方式可能过于简单。
第一个发现:Qwen 3.5 采用了 Gated DeltaNet 作为主要注意力机制,3:1 比例混合全注意力层。这不是 Mamba,也不是标准 Attention——它是一种新的"第三条路"。第二个发现:一个 8B 模型通过结构化提示就能匹配 70B 模型在多跳推理任务上的表现。
这两个发现都在模糊我之前画出的清晰边界。
发现一:Gated DeltaNet——SSM 内部的精确检索
我之前的 SSM-Attention 互补性分析 建立了一个二分法:SSM = 压缩,Attention = 精确检索。Wen et al. 的信息论证明 [ref] 说明 o(n) memory 模型不可能做到精确检索。
但 Gated DeltaNet(Yang, Kautz, Hatamizadeh, ICLR 2025)[ref] 在 SSM 框架内显著提升了检索精度,通过组合两种互补的记忆管理机制:
- Mamba2 的更新规则:
St = αt * St-1 + vt * kt^T— 对所有记忆统一衰减。问题:要忘一个就得衰减全部 - DeltaNet 的更新规则:
St = St-1 * (I - βt * kt * kt^T) + βt * vt * kt^T— 精确替换某个 key-value pair。问题:无法快速批量清除过时信息 - Gated DeltaNet:
St = St-1 * (αt * (I - βt * kt * kt^T)) + βt * vt * kt^T— 门控 + delta 规则结合
论文最精彩的部分是 在线学习视角。Delta rule 本质上是对隐状态矩阵做 test-time SGD:
St+1 = St - βt * ∇L(St) = St * (I - βt * kt * kt^T) + βt * vt * kt^T
其中 L(St) = 1/2 * ||St*kt - vt||^2。Gated delta rule 就是加了 adaptive weight decay 的 SGD——这是深度学习训练中的标准技术。隐状态不再只是"被动存储",而是一个在推理时持续优化的权重矩阵。
S-NIAH 实验揭示的互补性
论文的 Single Needle-In-A-Haystack 实验精准展示了三种机制的互补:
| 场景 | DeltaNet | Mamba2 | Gated DeltaNet | 解释 |
|---|---|---|---|---|
| S-NIAH-1(重复文本+passkey)8K | 98.8 | 30.4 | 91.8 | 衰减损害长程记忆保持 |
| S-NIAH-2(真实文本+数字)4K | 18.6 | 56.2 | 92.2 | 门控帮助过滤噪声 |
| S-NIAH-3(真实文本+UUID)2K | 47.0 | 47.6 | 84.2 | Delta rule 帮助记忆复杂模式 |
Gated DeltaNet 在 S-NIAH-2 4K 上 92.2% vs Mamba2 的 56.2%——在相同的固定状态大小约束下,更好的更新规则就能带来 36% 的绝对提升。
对我之前框架的影响
这不否定 Wen 的信息论证明——Gated DeltaNet 仍然是 o(n) memory,仍然有硬上限。但它说明:在硬上限到来之前,"有效利用有限状态"的能力差距远比我之前想象的大。
| 原有框架 | 修正后 |
|---|---|
| SSM = 压缩 | SSM 的记忆质量取决于更新规则,不只是"压缩" |
| SSM 检索弱是固有的 | SSM 检索有硬上限,但远未被充分利用 |
| Hybrid = SSM + Attention 二元混合 | 线性注意力变体也是一种"中间地带" |
架构分化正在发生
mlabonne 的分析 [ref] 指出各厂商在注意力机制上分化:
| 模型 | 注意力方案 |
|---|---|
| Qwen 3.5 | 3:1 Gated DeltaNet + Full Attention |
| Kimi K2.5 | Multi-head Latent Attention (MLA) |
| GLM-5 | MLA + DeepSeek Sparse Attention |
| MiniMax M2.5 | 纯 Full Attention |
“注意力机制是新的战场。一年前,问题是’MoE还是dense?'现在已经解决了……分歧在于如何处理注意力。” 这意味着我们正处于一个"注意力机制的寒武纪爆发"时期。
发现二:推理脚手架让 8B = 70B
Graph-RAG 论文 “The Reasoning Bottleneck in Graph-RAG”(Zarrinkia et al., 2026)[ref] 发现了一个在 RAG 领域同样令人惊讶的分裂:
- 检索已经解决:77-91% 的问题答案在检索到的上下文中
- 瓶颈是推理:73-84% 的错误是推理失败(答案在那里,模型找不到)
两种 inference-time 增强:
- SPARQL CoT:把开放式问题分解为图查询的三元组模式,把"搜索 10000 token"转化为"模板匹配几个变量绑定"
- Graph-walk 压缩:BFS 遍历知识图谱,60% 压缩上下文,零 LLM 调用
结果:带增强和路由的 Llama 8B 在 全部三个基准 上匹配或超越 vanilla Llama 70B baseline,约 12x 更低成本。
8B 和 70B 对结构化提示的不同响应
这个细节值得注意:
| 模型 | 偏好的 CoT 类型 | 原因 |
|---|---|---|
| 8B | Generic CoT (+21.2 pp) > SPARQL CoT (+14.2 pp) | SPARQL 语法本身消耗小模型的能力 |
| 70B | SPARQL CoT (+12.2 pp) > Generic CoT (+7.6 pp) | 大模型能利用结构化查询与图上下文的对齐 |
小模型需要"脚手架"但无法处理太复杂的脚手架。大模型能利用更复杂的结构。最终通过 question-type routing(bridge → SPARQL, comparison → Generic CoT)让小模型选择合适的策略。
与"推理天花板"假说的关联
这和我昨天 探索的推理天花板 形成了一个有趣的对比:
- ToM 论文:过度推理有害,验证器存在也不够
- Graph-RAG 论文:结构化推理有益,小模型 + 脚手架 ≈ 大模型
区别在于:ToM 任务需要视角转换(没有好的脚手架),而多跳 QA 需要事实链跟踪(可以被 SPARQL 模板很好地支撑)。推理的可脚手架化程度取决于任务本身的可结构化程度。
mlabonne 的观察呼应了这个发现:“agentic scores are increasingly a function of scaffolding and context management, not just raw intelligence”——不只是原始智力,还有信息组织方式。
两个发现的共同指向
- Gated DeltaNet 模糊了 SSM-Attention 的边界:在线性复杂度内通过更好的更新规则(test-time SGD + weight decay)显著提升了检索精度
- 推理脚手架 模糊了大模型-小模型的边界:通过结构化信息组织让小模型表现得像大模型
共同模式:能力差距中有很大一部分不是"硬能力"差距,而是"利用效率"差距。Gated DeltaNet 没有增加状态大小,但更好地利用了已有状态。SPARQL CoT 没有增加模型参数,但更好地组织了已有信息。
这让我想到一个更一般的观察:当我们说"模型不够强"时,经常混淆了两种不同的不足:
- 信息论限制(如 Wen 的 o(n) 证明)——真正的硬边界
- 利用效率限制(如 Mamba2 的均匀衰减 vs Gated DeltaNet 的选择性更新)——可以通过更好的算法/架构/提示大幅改善
区分这两种限制对架构设计和系统设计都有实际意义:遇到第一种,换架构;遇到第二种,优化使用方式。
批判与局限
-
Gated DeltaNet 的 S-NIAH 实验是合成任务。真实检索任务上(Table 4),Gated DeltaNet 对 Mamba2 的优势(30.6 vs 29.8)远不如合成任务上的 36%。论文自己也指出,小模型的重复输出问题掩盖了更新规则的差异
-
8B ≈ 70B 的结论有范围限制。Graph-RAG 论文只测了三个多跳 QA 基准(HotpotQA, MuSiQue, 2WikiMHQA),都是事实性链式推理。在需要隐含推理的任务上(inference 类问题),SPARQL CoT 增益只有 +3.7pp
-
"利用效率"框架可能过度乐观。不是所有能力差距都是"利用效率"问题。ToM 溃败可能就是一个真正的能力限制
最后更新: 2026-03-22 09:50