SSM 与 Attention 的信息论互补：为什么 Hybrid 架构是必须的

引言：17 分到 1 分，但 Phonebook 纹丝不动

NVIDIA 在 8B 参数规模上做了一个干净的受控实验：同样的训练数据、同样的参数量、同样的评估流水线，唯一的变量是架构——Mamba-2 vs Transformer [ref]。

结果出现了一个令人困惑的分裂：

指标	1.1T tokens	3.5T tokens	变化
MMLU 差距	-17.09	-1.37	缩小 92%
Phonebook 差距	~100%	~100%	不变

MMLU（多学科知识问答）上的差距几乎消失了，只靠 3x 更多训练数据。但 Phonebook（给一个电话簿，问某人号码）的差距——无论多少数据——纹丝不动。SSM 在约 500 tokens 后就开始出错，Transformer 在整个 4096 token 训练长度内保持接近 100%。

Phonebook evaluation: Transformer vs SSM

这个分裂暗示了一个深层问题：存在两种本质不同的架构差距。 一种可以被数据弥补，另一种不能。这篇文章论证：这个区分不是偶然的经验发现，而是有信息论证明支撑的结构性事实——SSM 和 Attention 各自有对方无法替代的信息论优势，Hybrid 架构因此是必须的。

第一条论证线：SSM 的检索瓶颈是不可逾越的信息论下界

Wen et al. 的形式化证明

Wen, Dang & Lyu (2024) 在 “RNNs are not Transformers (Yet)” [ref] 中给出了一个关键定理：任何隐状态为 o(n) bits 的模型，在 in-context retrieval 任务上表达能力不足，即使加上任意长度的 Chain-of-Thought 也不够。

这里"in-context retrieval"指从已处理的上下文中精确检索特定信息——例如"Alice 的电话号码是什么？"

证明的核心思想简洁而有力：

考虑两方通信问题：Alice 持有输入序列 x（n 个元素），Bob 持有查询 k
如果一个 o(n) memory 的模型能解决检索问题，Alice 可以在 x 上运行模型，把隐状态（o(n) bits）发给 Bob
Bob 用这个状态回答关于 x 的任意查询
但 Index 问题（“x 的第 k 个元素是什么？”）的通信复杂度下界是 Ω(n) bits
o(n) < Ω(n)，矛盾

这个论证对 CoT 同样成立：即使模型生成中间步骤，每一步的隐状态仍然是 o(n) bits。CoT 增加了计算步数，但不增加 RNN 的"记忆带宽"。

适用范围比预期更广

这个证明的适用范围值得强调。Wen 的 RNN 定义（Definition 3.3）覆盖了所有具有固定大小隐状态的序列模型：

经典 RNN (LSTM, GRU)
SSM 全族 (S4, S5, S6/Mamba, Mamba-2)
Linear Attention (RWKV, RetNet)
滑动窗口注意力
有限 KV cache 模型

唯一的条件是隐状态不随序列长度线性增长。 这意味着 Mamba-2 的 SSD（Structured State Space Duality）[ref] ——虽然在数学上等价于一种特殊的注意力形式——不改变这个结论。SSD 的对偶性只是训练/计算形式的对偶（可以用注意力矩阵乘法训练，用递归状态推理），推理时 Mamba-2 仍然使用固定大小的状态向量。

模糊记忆：硬边界的 graceful degradation

值得注意的是，Wen 的证明讨论的是精确检索（完美解决）。NVIDIA 的实验表明，SSM 的实际退化是渐进的而非突然的：SSM 预测的电话号码与正确答案共享多个正确位置的数字。这种"模糊记忆"（fuzzy memory）现象 [ref] 说明 SSM 不是完全遗忘，而是有损压缩——固定大小的状态向量保留了近似信息，但丢失了精确细节。

在自然语言建模中，"近似检索"可能比"精确检索"更常见（语言的统计分布本身就是模糊的）。这部分解释了为什么 SSM 在 perplexity 指标上可以接近甚至匹配 Transformer，即使它在精确检索上有信息论硬边界。

第二条论证线：Attention 的弱点——对 token 语义的结构性依赖

Gu 的反直觉发现

如果 SSM 有硬边界，那 Attention 是否就没有弱点？Mamba 的创造者 Albert Gu 在 2025 年的一篇技术博客 [ref] 中提出了一个反直觉论点：Transformer 的弱点不仅仅是二次复杂度，更是归纳偏置层面的局限。

Gu 的核心观察：

“The inductive bias of soft attention is hard attention.”

即：Attention 机制偏向于关注（attend to）个别 token。当个别 token 有语义意义时（如单词、子词），这是优势；当个别 token 无意义时（如单个字符、单个碱基对），这变成劣势。

关键实验证据：

Byte-level 语言建模：Mamba 在 byte-level 上显著优于全局 Attention，即使 Transformer 使用 2x FLOPs（数据匹配而非 FLOP 匹配条件下）
DNA 语言建模：vocabulary 只有 4 个碱基对（A, T, C, G），没有"有意义的 token"概念。SSM 在数据匹配条件下强于 Transformer [ref]

这不是效率问题——不是说"Attention 在 bytes 上太慢"。而是说，即使给 Transformer 更多计算（2x FLOPs），它在 byte-level 上的建模能力仍然不如 Mamba。Attention 的归纳偏置（关注个别 token）在 token 无意义时成为建模能力的瓶颈。

信息密度均匀性假说

Gu 的"token 是否有意义"框架可能过于二元。更精确的表述可能是信息密度的均匀性（这是我对 Gu 论点的推测性延伸，非原文观点）：

数据类型	信息密度	Attention 适配性
BPE 子词	高且不均匀（每个 token 携带不同量的信息）	高（注意力可以差异化分配）
单个字符/字节	低且均匀（每个字节携带相似量的信息）	低（无法有效差异化）
DNA 碱基对	极低且极均匀	极低

当信息均匀分布在所有 token 上时，"关注个别 token"的归纳偏置不仅无用，而且有害——它会在均匀分布中制造人工的不均匀性。

与 SSM 弱点的对称性

这产生了一个对称的图景：

SSM 的弱点：不能精确检索（信息论下界），但擅长处理均匀分布的信息（压缩偏置是优势）
Attention 的弱点：依赖 token 语义（归纳偏置限制），但擅长精确检索（KV cache 保存完整历史）

这不是"谁更好"的问题，而是互补性的问题——每一方的弱点恰好是另一方的强项。

第三条论证线：Hybrid 最优比例的独立验证

如果上述互补性是真实的，那么 hybrid 架构应该优于任何一种纯架构。实证数据强力支持这一点。

多组独立验证——从中小规模到产业级

“数十个研究组” [ref] 独立发现了相似的最优 SSM:Attention 比例（3:1 到 10:1 乃至更高）。2025 年以来，这个趋势从中小规模实验升级为产业级部署：

中小规模受控实验（8B 以下）：

模型	团队	规模	SSM:Attention 比例	关键结果
Jamba	AI21	52B (MoE)	7:1	纯 Mamba ICL 严重失败（IMDB 84→49%），加 1/8 attention 完全恢复 [ref]

产业级大规模部署（47B-560B）：

模型	团队	规模	架构细节	关键结果
Jamba 1.5	AI21	398B/94B active	72 层，Mamba:Attention 7:1，16 MoE experts	256K context，NVIDIA RULER SOTA [ref]
Nemotron-H	NVIDIA	8B/47B/56B	92% Mamba2 块	比 LLaMA-3.1/Qwen-2.5 快 3x，MMLU/GSM8K/MATH 匹配或超越 [ref]
Hunyuan TurboS	Tencent	560B/56B active	128 层 Attention-Mamba-FFN 交替，32 MoE experts	256K context，16T tokens 预训练 [ref]
Phi-4-mini-flash	Microsoft	3.8B	SambaY: Mamba + 滑动窗口注意力 + GMU	10x 更高吞吐量，2-3x 更低延迟 [ref]

这些产业级部署直接验证了核心论点：hybrid 架构不仅在实验室有效，而且在真实的大规模训练和推理中被多个顶级团队独立选择。

一个值得注意的反例：Falcon Mamba

TII 的 Falcon Mamba 7B [ref] 是一个纯 Mamba 模型（无 attention 层），在 MMLU、GSM8K、ARC 等基准上超越了 LLaMA3.1-8B。这似乎与"SSM 需要 attention"的论点矛盾。

但仔细分析后，这个反例实际上支持而非否定了互补性论点：

Falcon Mamba 的优势主要在知识型和推理型任务（MMLU, GSM8K），这类任务不需要精确的 in-context retrieval
Wen 的证明限定了 SSM 的弱点在 in-context retrieval——精确检索上下文中的特定信息
NVIDIA 的数据表明，在知识型任务上，更多训练数据（5.8T tokens for Falcon Mamba）可以弥补 SSM 的劣势
但在需要精确检索的任务（Phonebook, NIAH）上，纯 SSM 仍有不可弥补的差距

换言之：如果你的应用不需要长上下文精确检索，纯 SSM 可以很好地工作。但如果需要（如多文档 QA、长对话上下文引用），少量 attention 是必须的。

Induction Heads：Attention 的不可替代角色

Jamba 的实验揭示了一个关键机制 [ref]：纯 Mamba 模型在 ICL 任务上不是"回答错误"，而是不遵循格式——它输出 “Very Good”、“3/10” 而不是 “Positive”/“Negative”。这暗示 SSM 难以形成 induction heads——attention 机制中负责"看到相似模式 → 复制输出"的关键组件 [ref]。

可视化分析证实：hybrid 模型的 attention 层发展出了 induction heads，注意力从最后一个 token 集中到 few-shot 示例的标签 token 上。

这给出了 attention 不可替代的具体机制解释：attention 提供了 content-based addressing（基于内容的寻址）能力——Wen 的证明将其形式化为 Match 和 Count 两个注意力原语，它们是解决所有基本检索任务的充分条件。

~8% 的理论解释

NVIDIA 发现 ~8% attention 层比例最优 [ref]，这看起来像一个经验数字。但 Wen 的定理 5.7 提供了理论解释：hybrid RNN + 一层 attention 就足以模拟任意多项式时间图灵机 [ref]。你不需要很多 attention 层（它只负责检索），但你至少需要一些 attention。~8% 可能就是实践中"至少一些"的量化值。

一个更精确的 Bitter Lesson

Rich Sutton 的 Bitter Lesson (2019) [ref] 总结了 70 年 AI 研究的教训：利用计算的一般方法最终胜过利用人类先验的特殊方法。如果这完全正确，归纳偏置应该只有短期价值。

NVIDIA 的 MMLU 数据似乎支持这一点——SSM 的知识差距被数据抹平。但 Phonebook 数据和 Wen 的证明给出了修正：

归纳偏置有两种角色：

效率型归纳偏置：加速学习，但不改变性能天花板。BPE tokenization 是典型——H-Net [ref] 的动态分段更好，但给足够数据 BPE 也能工作。Bitter Lesson 对此完全正确。
能力型归纳偏置：定义了架构能表达的计算类型。Attention 的全历史精确访问 vs SSM 的固定状态压缩，是计算原语的差异。SSM 在数学上不可能在固定状态中存储无限精度的任意长序列信息——这是 Wen 证明给出的信息论下界，不是优化不足。Bitter Lesson 在此遇到边界。

修正后的 Bitter Lesson：效率型归纳偏置会被计算淹没，能力型归纳偏置定义了计算的边界。 Hybrid 架构的设计原则因此是：内置最小必要的能力型归纳偏置（少量 attention 层提供精确检索），其余交给 scaling。

归纳偏置匹配原则

综合上述论证，一个实用的架构设计原则浮现：

计算需求	最优组件	信息论根据
信息压缩/聚合	SSM	固定状态大小天然强制压缩；H-Net 实验验证 Mamba encoder 最优
视觉编码（图像→特征）	SSM backbone	视觉编码的核心任务是压缩而非检索；Kuo & Cascante-Bonilla (2026) 发现 SSM backbone 在 VQA 和 grounding 上优于 ViT [ref]
精确信息检索	Attention	KV cache 保存完整历史；Wen 证明 o(n) memory 模型不可能做到
ICL / 格式遵循	Attention (少量即可)	Induction heads 需要 content-based addressing
通用特征变换	MLP	无序列依赖的逐位置变换；NVIDIA 50% MLP 比例无损
位置编码	SSM (隐式)	SSM 的递归结构天然编码序列位置；hybrid 模型去掉 RoPE 后更好

一句话总结：SSM 负责"走过"序列（流式处理、压缩、位置编码），Attention 负责"回头看"序列（精确检索、模式匹配、ICL），MLP 负责"思考"每个位置。

值得注意的是，这种互补不仅存在于同一模型内部。VLM（Vision Language Model）中 SSM 视觉编码器 + Transformer 语言主干的组合，本身就是系统级 hybrid — 视觉编码器的任务是压缩（SSM 擅长），语言推理的任务是检索和成对交互（Transformer 擅长）。

视觉对应任务的实证：DA-Flow [ref]（KAIST, 2026）在退化视频光流估计中发现，图像恢复 diffusion model 的特征做光流远优于视频恢复 diffusion model。原因是视频恢复模型通过 3D 卷积/temporal attention 把多帧压缩到共享潜空间，丧失了帧级独立的空间结构。而光流需要逐帧独立的空间特征做 pairwise matching。最终方案是以图像恢复 DiT 为基座 + 注入 cross-frame attention — 本质是"保留帧独立性（不压缩）+ 显式跨帧交互（attention）"，和 Hybrid 架构中"SSM 处理序列压缩 + Attention 做精确检索"的分工同构。这是 SSM 检索瓶颈在密集视觉对应任务中的又一个实例。

NVIDIA 的最终设计（56 层：24 Mamba-2 + 4 Attention + 28 MLP）是这个原则的一个具体实例。

Validation loss vs attention layer percentage - ~8% optimal

2026 年更新：Gated DeltaNet 与注意力机制的寒武纪爆发

更好的更新规则：SSM 检索效率的第三条路

上文的分析建立了一个二分法：SSM = 压缩，Attention = 精确检索。Wen 的证明说明 o(n) memory 有检索硬上限。但 2025-2026 年的发展表明：在硬上限到来之前，SSM 的"有效利用有限状态"的能力差距远比预想的大。

Gated DeltaNet（Yang, Kautz, Hatamizadeh, ICLR 2025）[ref] 组合了两种互补的记忆管理机制，在 SSM 框架内显著提升了检索精度：

Mamba-2 的更新规则：St = αt * St-1 + vt * kt^T — 对所有记忆统一衰减（全局遗忘）
DeltaNet 的更新规则：St = St-1 * (I - βt * kt * kt^T) + βt * vt * kt^T — 精确替换某个 key-value pair（选择性更新）
Gated DeltaNet 结合两者：St = St-1 * (αt * (I - βt * kt * kt^T)) + βt * vt * kt^T — 门控 + delta 规则

论文最精彩的是在线学习视角：delta rule 本质上是对隐状态矩阵做 test-time SGD：

St+1 = St - βt * ∇L(St) = St * (I - βt * kt * kt^T) + βt * vt * kt^T

其中 L(St) = 1/2 * ||St*kt - vt||^2。Gated delta rule 就是 SGD + adaptive weight decay——深度学习训练中的标准技术。隐状态不再只是"被动存储"，而是一个在推理时持续优化的权重矩阵。

S-NIAH（Single Needle-In-A-Haystack）实验揭示了三种机制的互补：

场景	DeltaNet	Mamba2	Gated DeltaNet	解释
S-NIAH-1（重复文本+passkey）8K	98.8	30.4	91.8	衰减损害长程记忆保持
S-NIAH-2（真实文本+数字）4K	18.6	56.2	92.2	门控帮助过滤噪声
S-NIAH-3（真实文本+UUID）2K	47.0	47.6	84.2	Delta rule 帮助记忆复杂模式

Gated DeltaNet 在 S-NIAH-2 4K 上 92.2% vs Mamba2 的 56.2%——在相同的固定状态大小约束下，更好的更新规则就能带来 36% 的绝对提升。这不否定 Wen 的信息论证明——Gated DeltaNet 仍然是 o(n) memory，仍然有硬上限——但它说明：硬上限之下的"利用效率"差距远大于预想。

需要修正的原有框架：

原有框架	修正后
SSM = 压缩	SSM 的记忆质量取决于更新规则，不只是"压缩"
SSM 检索弱是固有的	SSM 检索有硬上限，但利用效率远未被消除
Hybrid = SSM + Attention 二元混合	线性注意力变体（如 GDN）也是一种"中间地带"

一个重要的限制：Gated DeltaNet 的 S-NIAH 实验是合成任务。在真实语言建模任务上（Table 4），Gated DeltaNet 对 Mamba2 的优势（30.6 vs 29.8）远不如合成任务上的 36%。论文自己也指出，小模型的重复输出问题掩盖了更新规则的差异。

注意力机制的寒武纪爆发

Gated DeltaNet 不是一个孤立的事件。2026 年初，产业界在注意力机制上出现了显著分化 [ref]：

模型	注意力方案	设计哲学
Qwen 3.5	3:1 Gated DeltaNet + Full Attention	SSM 变体 + 少量全注意力
Kimi K2.5	Multi-head Latent Attention (MLA)	KV 压缩到低维潜空间
GLM-5	MLA + DeepSeek Sparse Attention	KV 压缩 + 稀疏模式
MiniMax M2.5	纯 Full Attention（MHA）	不做压缩，靠推理优化

这个分化意味着我们已经离开了"Transformer vs SSM"的二元框架，进入了一个多路并存的时代。每种方案都在不同维度上做权衡：

GDN + Attention (Qwen)：在 SSM 层内通过更好的更新规则最大化压缩状态利用，全注意力层只负责少数检索任务
MLA (Kimi/GLM)：不放弃全注意力的计算形式，但把 KV cache 投影到低维空间以降低内存
纯 MHA (MiniMax)：完全不引入新归纳偏置，靠工程优化和推理基础设施

这些方案的共存验证了本文的核心论点：attention 的精确检索能力是不可或缺的（即使 MiniMax 选择纯 MHA，也是因为它保留了全部检索能力）。差异只是在"如何高效地提供这种能力"上的权衡。

递归架构的部署现实

Gated DeltaNet 在部署中暴露了一个递归架构的实际限制：递归状态无法增量更新。传统 Transformer 的 KV cache 可以增量扩展（新 token 只需计算新的 KV 对），但递归层的隐状态依赖整个历史序列——prompt 变化就必须从头重算。

在 agentic 使用场景中（频繁的 prompt 变化），这是一个实际的工程劣势。ik_llama.cpp fork 通过 fused CUDA kernels 将 Qwen 3.5 的 prompt processing 速度提升了数倍（graph splits 从 34 降到 2），让这个问题"可容忍"但并未消除（llama.cpp issue #20225）。

这是 SSM/递归架构的另一种"利用效率"问题——不是理论不可能增量更新（存在 delta 更新的理论可能性），而是目前的实现还没解决。MLA 方案（Kimi/GLM）不存在这个问题，因为它仍然基于 attention 的增量 KV cache 机制。

局限性与开放问题

1. SSM 检索缓解技术存在但有上限

LongMamba [ref]（ICLR 2026）提出了一种 training-free 的方法：发现 Mamba 的 hidden channels 自然分化为 local 和 global 两类，通过对 global channels 进行 token filtering（过滤不重要 token 以减缓指数衰减）来扩展感受野。在合成检索任务上效果显著（32k passkey retrieval 从 0% → 73%），但在 Falcon Mamba 7B 的真实任务上仅提升 2.8%（23.4% → 26.2%），仍低于同尺寸 Transformer（Vicuna-v1.5-7B-16k 30.1%）。

RwR [ref] 采用数据驱动路线：通过 CoT 蒸馏教 Mamba 先总结再回答，在 100k 外推上 Mamba（9.8%）优于 Transformer/Hybrid（~0%），但绝对性能很低。

这些方法的存在反而从操作层面验证了信息论硬边界的影响——如果没有硬边界，就不需要这些精巧的绕行策略。Token filtering 本质是减少"有效序列长度"，summarize-then-answer 本质是把长序列问题分解为短序列问题，都没有突破 Wen 的 o(n) memory 下界。

2. SSM 弱点的"硬度"可能随技术进步变化

历史上，卷积曾被认为是视觉的"能力型"归纳偏置。然后 Vision Transformer 证明，给足够数据，patch embedding + attention 可以学到比手工卷积更好的特征——卷积的优势从"能力型"降级为"效率型"。

SSM 的检索限制是否可能走同样的路？Wen 的证明适用于所有固定状态大小的模型，这比"特定卷积核设计"更根本。但如果出现一种新的 SSM 变体，其状态大小能随需要动态增长（突破"固定大小"假设），那下界就不再适用。

3. Gu 的 byte-level 实验规模有限

"Attention 在 byte-level 上弱于 SSM"的证据来自中小规模实验。如果在 70B+ 规模，Transformer 是否能通过学习隐式压缩（早期层学到类似 BPE 的分组）来弥补 byte-level 的弱点？这正是 Bitter Lesson 的核心质疑——学习是否能替代归纳偏置。H-Net 的 main network 使用 Transformer 处理压缩后的 chunks，某种程度上验证了"只要输入有意义，Transformer 就很强"这个论点。

4. "压缩是智能的基础"假说缺乏因果证据

Gu 提出了一个大胆推测：“强制信息进入更小的状态，是否迫使模型学习更有用的模式和抽象？” 这目前只是关联而非因果。byte-level SSM 表现好不一定是因为压缩好——可能是因为递归处理天然适合字符级序列。

5. Hybrid 最优比例可能是任务和规模依赖的

~8% attention 和 3:1 到 10:1 的比例在当前规模和任务混合下成立，但未来可能变化。如果推理任务（需要大量检索）变得更重要，可能需要更多 attention；如果连续信号处理（音频、视频、传感器）变得更重要，可能需要更多 SSM。

6. 本文未涉及的相关问题

以下问题与架构设计相关，但机制不同于 SSM-Attention 互补性，因此不纳入本文：

Autoregressive 解码的不可回溯性：Sudoku 0% 准确率 [ref] 暴露了搜索问题，这是解码策略而非 SSM-Attention 的问题
残差连接的信息稀释：DCA [ref] / AttnRes [ref] 修复的是深度方向的信息传播，与序列方向的 SSM-Attention 互补正交
Token-level loss 的近视性：训练目标的问题，独立于推理时的架构选择

总结

SSM 和 Attention 的互补不是偶然发现，而是根植于信息论的结构性事实：

SSM 的检索限制是硬边界：Wen et al. 证明所有 o(n) memory 模型在精确检索上有不可逾越的信息论下界，CoT 无法弥补
Attention 的 token 语义依赖是归纳偏置层面的弱点：当 token 缺乏语义时（byte-level, DNA），SSM 的压缩偏置反而是优势
Hybrid 的最优性被多组独立验证：3:1 到 10:1 的 SSM:Attention 比例，少量 attention 提供检索能力，大量 SSM 提供压缩和效率
Bitter Lesson 需要修正：效率型归纳偏置被计算淹没，能力型归纳偏置定义计算边界。Hybrid 的原则是内置最小必要的能力型偏置

这个论证的最大不确定性在于 Gu 的 byte-level 实验的规模——如果更大规模否定了 Attention 的 token 语义依赖，论证的第二条线会被削弱（但第一条和第三条不受影响）。核心结论——至少需要一些 attention 来弥补 SSM 的检索硬边界——有 Wen 的形式化证明支撑，是最可靠的部分。

关键引用

Wen, Dang, Lyu (2024). RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval. [ref]
Gu (2025). On the Tradeoffs of SSMs and Transformers. Goomba Lab Blog. [ref]
Waleffe et al. (2024). An Empirical Study of Mamba-based Language Models. NVIDIA. [ref]
AI21 Labs (2024). Jamba: A Hybrid Transformer-Mamba Language Model. [ref]
AI21 Labs (2024). Jamba 1.5: Hybrid Transformer-Mamba Models at Scale. [ref]
NVIDIA (2025). Nemotron-H: Hybrid Mamba-Transformer Models. [ref]
Tencent (2025). Hunyuan-TurboS: Advancing Large Language Models with Hybrid Mamba-Transformer Architecture. [ref]
Zuo et al. (2025). Falcon Mamba. [ref]
Gu & Dao (2024). Mamba-2: Structured State Space Duality. [ref]
Glorioso et al. (2024). Zamba: A Compact 7B SSM Hybrid Model. [ref]
Olsson et al. (2022). In-context Learning and Induction Heads. [ref]
Sutton (2019). The Bitter Lesson. [ref]
Hwang, Wang, Gu (2025). H-Net: Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. [ref]
AI21 Labs (2025). Attention was never enough: Tracing the rise of hybrid LLMs. [ref]
Ye et al. (2025). LongMamba: Enhancing Mamba’s Long Context Capabilities via Training-Free Receptive Field Enlargement. ICLR 2026. [ref]
Ma et al. (2025). Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory and Extrapolation. [ref]
Yang, Kautz, Hatamizadeh (2025). Gated Delta Networks: Improving Mamba2 with Delta Rule. ICLR 2025. [ref]
mlabonne (2026). Qwen 3.5: Architecture and Evaluation. HuggingFace Blog. [ref]
Kuo & Cascante-Bonilla (2026). Evaluating SSM Vision Backbones as Visual Encoders for VLMs. [ref]
Jeong et al. (2026). DA-Flow: Degradation-Aware Flow from Diffusion Features. KAIST. [ref]

最后更新: 2026-03-26 03:30
更新内容: 添加 DA-Flow 视觉对应任务证据（帧独立性 + cross-frame attention > temporal compression）