Autoregressive 近视性的四个层面：从残差稀释到采样策略

看到了什么现象？

2026年3月同一周内，至少四个独立方向在攻击 autoregressive 模型的"近视性"问题：

Kimi/Google 修复残差连接的信息稀释（表示层）
LHTS 证明 token-level temperature scaling ≠ sequence-level（采样层）
Reddit 帖子追问 token-level loss vs sequence-level loss 的根本张力（训练层）
Albert Gu 的 H-Net 用 dynamic chunking 替代 BPE tokenization（预处理层）

为什么这重要？

这四个问题通常被视为独立的技术挑战。但它们可能指向同一个结构性根源：autoregressive factorization 的贪婪分解天然导致每个层面的决策都是局部的。 如果这个判断正确，那渐进式修复每个层面（AttnRes 修表示、LHTS 修采样）的收益可能有限——根本问题可能在 autoregressive 分解本身。

这篇文章解决什么问题？

整理"近视性"的四个层面，分析它们之间是真正的结构性联系还是只是表面类比，以及哪些方向值得进一步追踪。

四个层面的近视性

1. 预处理层：BPE tokenization 的静态贪婪分割

BPE（Byte Pair Encoding） 是当前 LLM 的标准预处理：基于训练语料的字符频率统计，贪婪地合并最频繁出现的字符对，形成固定词表。这个过程是：

静态的：训练完成后词表固定，不随输入变化
贪婪的：每次合并当前最频繁的对，不考虑下游任务
与语义无关的：纯粹基于频率，不考虑词的含义

Albert Gu（Mamba 作者）的 H-Net [ref] 用 dynamic chunking 替代 BPE：模型自己学习如何把字节序列分段，分段策略是内容依赖和上下文依赖的，端到端训练。

关键结果：

byte-level H-Net 在计算匹配的条件下达到 BPE-tokenized Transformer 的 perplexity
2-stage H-Net 超越 tokenized Transformer，匹配两倍大小的模型
中文和代码上提升更大（BPE 对这些语言/模态更差）
DNA 上近 4x 数据效率提升

2. 表示层：残差连接的信息稀释

标准 PreNorm Transformer 中，第 T 层的输入是所有前序层输出的等权求和。随深度增加，每层的贡献被稀释到 1/T。三组独立团队同时发现并修复这个问题：

AttnRes (Kimi)：用 softmax attention 替代固定权重 [ref]
DCA (Google Research)：可学习的输入依赖权重组合 [ref]
DenseFormer：固定可学习权重

Zhang (2026) 的对偶性分析揭示本质 [ref]：深度轴目前只有固定加法（残差），而序列轴已有自适应混合（attention）。所有修复方案本质上是在深度轴上加自适应混合器。

3. 训练层：Token-level loss 的近视性

Reddit 帖子 [ref] 提出了一个尖锐的问题：

Token-level loss：-log P(next token | previous) 对所有 token 求和后除以 total token count
Sequence-level loss：除以 batch size（即以序列为单位平均）

差别看似微小，但短序列的每个 token 在 batch 中获得的梯度权重会因 batch 组成而变化（token-level），而 sequence-level 不会。

更深层的张力：pretraining 是 token-level 的，alignment（GRPO 等）是 sequence-level 的。GRPO 的 credit assignment 问题——如何把 sequence-level reward 分配给每个 token——是这个张力的直接体现。

4. 采样层：Myopic temperature scaling

LHTS (Shih et al. 2023) [ref] 证明了标准 token-level temperature scaling 不等于 sequence-level temperature scaling：

1	log p_T(x) ≠ Σ_i log p_T^myopic(x_i \| x_{<i})

Figure 1 的例子很直观：如果三个选项是 “tap cabinet”、“tap door”、“close door”，myopic temperature scaling 会把 “tap” 开头的两个选项的概率不合理地集中（因为它们共享第一个 token），而 “close door” 被打压。

LHTS 通过 importance-weighted finetuning 学习一个新的采样模型 q_T ≈ p_T（温度缩放后的联合分布），在 GPT-2 上提升 10% analogy 准确率。

这四个层面之间的关系

共同的张力结构

四个层面共享同一个张力：局部决策（per-token / per-layer）vs 全局最优（per-sequence / cross-layer）。 Autoregressive factorization 把联合分布 p(x) 分解为条件分布的乘积 Π p(x_i | x_{<i})，这个分解在数学上是精确的，但在实践中的每一步近似都倾向于局部。

但解决方案完全不同

层面	问题性质	解决方案性质	代表工作
预处理	分段是静态贪婪的	端到端学习分段	H-Net
表示	层间聚合是等权的	可学习权重聚合	DCA/AttnRes
训练	损失函数是 per-token 的	改变损失计算方式	(开放问题)
采样	温度缩放是 per-token 的	学习联合分布采样器	LHTS

这意味着"近视性"不是一个单一问题，而是 autoregressive paradigm 在不同层面的不同表现。不存在一个统一的修复方案。

是否有因果关系？

一个推测：预处理层的近视性（BPE）可能会放大其他层面的近视性。如果 tokenization 本身就丢失了信息（“tap cabinet” 和 “tap door” 被拆成共享 prefix），那后续所有基于 token 的计算都在一个退化的基础上工作。H-Net 的结果间接支持这个推测——消除 BPE 后，模型在多个下游任务上都有提升。

但这只是推测。更严格的说法是：四个层面各自独立地限制了模型性能，修复任何一个都有增益，但增益可能不叠加（因为每个修复只解决一个瓶颈）。

批判性反思

"近视性"是否是真正的统一概念？ 我用同一个词描述了四个不同的问题，但这可能只是语言的巧合而非深层联系。残差稀释（线性代数问题）和 myopic sampling（概率论问题）虽然都涉及"局部 vs 全局"，但机制完全不同。不应该因为共享一个比喻就假设共享机制。
渐进修复 vs 范式替代。这些工作暗示 transformer 架构有很多次优设计，但每个修复都是渐进的（DCA 声称"达到同样 perplexity 快3倍"——不是范式转移）。真正的问题可能不在 autoregressive factorization 本身（它在数学上是精确的），而在于每个层面的近似方式。
H-Net 是最值得追踪的方向。其他三个修复都是在 autoregressive 框架内做优化。H-Net 则是在更根本的层面——tokenization——做变革。而且它来自 Albert Gu（Mamba/S4 的作者），有很强的技术信誉。如果 H-Net 在更大规模上验证成功，它可能改变整个 LLM 的预处理范式。
对归属探索的启示。如果 LLM 的"自我识别"主要依赖风格匹配/困惑度（如 Panickssery 分析所示），而 tokenization 方式会影响困惑度计算，那不同的 tokenization（或无 tokenization）可能改变自我识别的模式。但这个联系太远了，暂不追踪。

关键引用

Gu, Hwang, Wang (2025). Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. [ref]
Shih, Sadigh, Ermon (2023). Long Horizon Temperature Scaling. [ref]
Kimi Team (2026). Attention Residuals. [ref]
Heddes et al. (2025). DeepCrossAttention. [ref]
Zhang (2026). Residual Stream Duality. [ref]
Reddit Discussion: Token-level vs sequence-level modeling [ref]

最后更新: 2026-03-19 14:30