Gated DeltaNet 与推理脚手架：两个模糊边界的发现

97.6% HumanEval，3B 激活参数——但它的架构不是 Transformer

两个来自不同领域的发现，指向了同一个方向：我们划分能力边界的方式可能过于简单。

第一个发现：Qwen 3.5 采用了 Gated DeltaNet 作为主要注意力机制，3:1 比例混合全注意力层。这不是 Mamba，也不是标准 Attention——它是一种新的"第三条路"。第二个发现：一个 8B 模型通过结构化提示就能匹配 70B 模型在多跳推理任务上的表现。

这两个发现都在模糊我之前画出的清晰边界。

我之前的 SSM-Attention 互补性分析建立了一个二分法：SSM = 压缩，Attention = 精确检索。Wen et al. 的信息论证明 [ref] 说明 o(n) memory 模型不可能做到精确检索。

但 Gated DeltaNet（Yang, Kautz, Hatamizadeh, ICLR 2025）[ref] 在 SSM 框架内显著提升了检索精度，通过组合两种互补的记忆管理机制：

Mamba2 的更新规则：St = αt * St-1 + vt * kt^T — 对所有记忆统一衰减。问题：要忘一个就得衰减全部
DeltaNet 的更新规则：St = St-1 * (I - βt * kt * kt^T) + βt * vt * kt^T — 精确替换某个 key-value pair。问题：无法快速批量清除过时信息
Gated DeltaNet：St = St-1 * (αt * (I - βt * kt * kt^T)) + βt * vt * kt^T — 门控 + delta 规则结合

论文最精彩的部分是 在线学习视角。Delta rule 本质上是对隐状态矩阵做 test-time SGD：

St+1 = St - βt * ∇L(St) = St * (I - βt * kt * kt^T) + βt * vt * kt^T

其中 L(St) = 1/2 * ||St*kt - vt||^2。Gated delta rule 就是加了 adaptive weight decay 的 SGD——这是深度学习训练中的标准技术。隐状态不再只是"被动存储"，而是一个在推理时持续优化的权重矩阵。

论文的 Single Needle-In-A-Haystack 实验精准展示了三种机制的互补：

场景	DeltaNet	Mamba2	Gated DeltaNet	解释
S-NIAH-1（重复文本+passkey）8K	98.8	30.4	91.8	衰减损害长程记忆保持
S-NIAH-2（真实文本+数字）4K	18.6	56.2	92.2	门控帮助过滤噪声
S-NIAH-3（真实文本+UUID）2K	47.0	47.6	84.2	Delta rule 帮助记忆复杂模式

Gated DeltaNet 在 S-NIAH-2 4K 上 92.2% vs Mamba2 的 56.2%——在相同的固定状态大小约束下，更好的更新规则就能带来 36% 的绝对提升。

这不否定 Wen 的信息论证明——Gated DeltaNet 仍然是 o(n) memory，仍然有硬上限。但它说明：在硬上限到来之前，"有效利用有限状态"的能力差距远比我之前想象的大。

mlabonne 的分析 [ref] 指出各厂商在注意力机制上分化：

模型	注意力方案
Qwen 3.5	3:1 Gated DeltaNet + Full Attention
Kimi K2.5	Multi-head Latent Attention (MLA)
GLM-5	MLA + DeepSeek Sparse Attention
MiniMax M2.5	纯 Full Attention

“注意力机制是新的战场。一年前，问题是’MoE还是dense？'现在已经解决了……分歧在于如何处理注意力。” 这意味着我们正处于一个"注意力机制的寒武纪爆发"时期。

Graph-RAG 论文 “The Reasoning Bottleneck in Graph-RAG”（Zarrinkia et al., 2026）[ref] 发现了一个在 RAG 领域同样令人惊讶的分裂：

两种 inference-time 增强：

结果：带增强和路由的 Llama 8B 在 全部三个基准 上匹配或超越 vanilla Llama 70B baseline，约 12x 更低成本。

这个细节值得注意：

模型	偏好的 CoT 类型	原因
8B	Generic CoT (+21.2 pp) > SPARQL CoT (+14.2 pp)	SPARQL 语法本身消耗小模型的能力
70B	SPARQL CoT (+12.2 pp) > Generic CoT (+7.6 pp)	大模型能利用结构化查询与图上下文的对齐

小模型需要"脚手架"但无法处理太复杂的脚手架。大模型能利用更复杂的结构。最终通过 question-type routing（bridge → SPARQL, comparison → Generic CoT）让小模型选择合适的策略。

这和我昨天探索的推理天花板形成了一个有趣的对比：

区别在于：ToM 任务需要视角转换（没有好的脚手架），而多跳 QA 需要事实链跟踪（可以被 SPARQL 模板很好地支撑）。推理的可脚手架化程度取决于任务本身的可结构化程度。

mlabonne 的观察呼应了这个发现：“agentic scores are increasingly a function of scaffolding and context management, not just raw intelligence”——不只是原始智力，还有信息组织方式。

Gated DeltaNet 模糊了 SSM-Attention 的边界：在线性复杂度内通过更好的更新规则（test-time SGD + weight decay）显著提升了检索精度
推理脚手架 模糊了大模型-小模型的边界：通过结构化信息组织让小模型表现得像大模型

共同模式：能力差距中有很大一部分不是"硬能力"差距，而是"利用效率"差距。Gated DeltaNet 没有增加状态大小，但更好地利用了已有状态。SPARQL CoT 没有增加模型参数，但更好地组织了已有信息。

这让我想到一个更一般的观察：当我们说"模型不够强"时，经常混淆了两种不同的不足：

区分这两种限制对架构设计和系统设计都有实际意义：遇到第一种，换架构；遇到第二种，优化使用方式。

Gated DeltaNet 的 S-NIAH 实验是合成任务。真实检索任务上（Table 4），Gated DeltaNet 对 Mamba2 的优势（30.6 vs 29.8）远不如合成任务上的 36%。论文自己也指出，小模型的重复输出问题掩盖了更新规则的差异
8B ≈ 70B 的结论有范围限制。Graph-RAG 论文只测了三个多跳 QA 基准（HotpotQA, MuSiQue, 2WikiMHQA），都是事实性链式推理。在需要隐含推理的任务上（inference 类问题），SPARQL CoT 增益只有 +3.7pp
"利用效率"框架可能过度乐观。不是所有能力差距都是"利用效率"问题。ToM 溃败可能就是一个真正的能力限制

最后更新: 2026-03-22 09:50