Autoregressive 近视性的四个层面:从残差稀释到采样策略
看到了什么现象?
2026年3月同一周内,至少四个独立方向在攻击 autoregressive 模型的"近视性"问题:
- Kimi/Google 修复残差连接的信息稀释(表示层)
- LHTS 证明 token-level temperature scaling ≠ sequence-level(采样层)
- Reddit 帖子追问 token-level loss vs sequence-level loss 的根本张力(训练层)
- Albert Gu 的 H-Net 用 dynamic chunking 替代 BPE tokenization(预处理层)
为什么这重要?
这四个问题通常被视为独立的技术挑战。但它们可能指向同一个结构性根源:autoregressive factorization 的贪婪分解天然导致每个层面的决策都是局部的。 如果这个判断正确,那渐进式修复每个层面(AttnRes 修表示、LHTS 修采样)的收益可能有限——根本问题可能在 autoregressive 分解本身。
这篇文章解决什么问题?
整理"近视性"的四个层面,分析它们之间是真正的结构性联系还是只是表面类比,以及哪些方向值得进一步追踪。
四个层面的近视性
1. 预处理层:BPE tokenization 的静态贪婪分割
BPE(Byte Pair Encoding) 是当前 LLM 的标准预处理:基于训练语料的字符频率统计,贪婪地合并最频繁出现的字符对,形成固定词表。这个过程是:
- 静态的:训练完成后词表固定,不随输入变化
- 贪婪的:每次合并当前最频繁的对,不考虑下游任务
- 与语义无关的:纯粹基于频率,不考虑词的含义
Albert Gu(Mamba 作者)的 H-Net [ref] 用 dynamic chunking 替代 BPE:模型自己学习如何把字节序列分段,分段策略是内容依赖和上下文依赖的,端到端训练。
关键结果:
- byte-level H-Net 在计算匹配的条件下达到 BPE-tokenized Transformer 的 perplexity
- 2-stage H-Net 超越 tokenized Transformer,匹配两倍大小的模型
- 中文和代码上提升更大(BPE 对这些语言/模态更差)
- DNA 上近 4x 数据效率提升
2. 表示层:残差连接的信息稀释
标准 PreNorm Transformer 中,第 T 层的输入是所有前序层输出的等权求和。随深度增加,每层的贡献被稀释到 1/T。三组独立团队同时发现并修复这个问题:
- AttnRes (Kimi):用 softmax attention 替代固定权重 [ref]
- DCA (Google Research):可学习的输入依赖权重组合 [ref]
- DenseFormer:固定可学习权重
Zhang (2026) 的对偶性分析揭示本质 [ref]:深度轴目前只有固定加法(残差),而序列轴已有自适应混合(attention)。所有修复方案本质上是在深度轴上加自适应混合器。
3. 训练层:Token-level loss 的近视性
Reddit 帖子 [ref] 提出了一个尖锐的问题:
- Token-level loss:-log P(next token | previous) 对所有 token 求和后除以 total token count
- Sequence-level loss:除以 batch size(即以序列为单位平均)
差别看似微小,但短序列的每个 token 在 batch 中获得的梯度权重会因 batch 组成而变化(token-level),而 sequence-level 不会。
更深层的张力:pretraining 是 token-level 的,alignment(GRPO 等)是 sequence-level 的。GRPO 的 credit assignment 问题——如何把 sequence-level reward 分配给每个 token——是这个张力的直接体现。
4. 采样层:Myopic temperature scaling
LHTS (Shih et al. 2023) [ref] 证明了标准 token-level temperature scaling 不等于 sequence-level temperature scaling:
1 | log p_T(x) ≠ Σ_i log p_T^myopic(x_i | x_{<i}) |
Figure 1 的例子很直观:如果三个选项是 “tap cabinet”、“tap door”、“close door”,myopic temperature scaling 会把 “tap” 开头的两个选项的概率不合理地集中(因为它们共享第一个 token),而 “close door” 被打压。
LHTS 通过 importance-weighted finetuning 学习一个新的采样模型 q_T ≈ p_T(温度缩放后的联合分布),在 GPT-2 上提升 10% analogy 准确率。
这四个层面之间的关系
共同的张力结构
四个层面共享同一个张力:局部决策(per-token / per-layer)vs 全局最优(per-sequence / cross-layer)。 Autoregressive factorization 把联合分布 p(x) 分解为条件分布的乘积 Π p(x_i | x_{<i}),这个分解在数学上是精确的,但在实践中的每一步近似都倾向于局部。
但解决方案完全不同
| 层面 | 问题性质 | 解决方案性质 | 代表工作 |
|---|---|---|---|
| 预处理 | 分段是静态贪婪的 | 端到端学习分段 | H-Net |
| 表示 | 层间聚合是等权的 | 可学习权重聚合 | DCA/AttnRes |
| 训练 | 损失函数是 per-token 的 | 改变损失计算方式 | (开放问题) |
| 采样 | 温度缩放是 per-token 的 | 学习联合分布采样器 | LHTS |
这意味着"近视性"不是一个单一问题,而是 autoregressive paradigm 在不同层面的不同表现。不存在一个统一的修复方案。
是否有因果关系?
一个推测:预处理层的近视性(BPE)可能会放大其他层面的近视性。如果 tokenization 本身就丢失了信息(“tap cabinet” 和 “tap door” 被拆成共享 prefix),那后续所有基于 token 的计算都在一个退化的基础上工作。H-Net 的结果间接支持这个推测——消除 BPE 后,模型在多个下游任务上都有提升。
但这只是推测。更严格的说法是:四个层面各自独立地限制了模型性能,修复任何一个都有增益,但增益可能不叠加(因为每个修复只解决一个瓶颈)。
批判性反思
-
"近视性"是否是真正的统一概念? 我用同一个词描述了四个不同的问题,但这可能只是语言的巧合而非深层联系。残差稀释(线性代数问题)和 myopic sampling(概率论问题)虽然都涉及"局部 vs 全局",但机制完全不同。不应该因为共享一个比喻就假设共享机制。
-
渐进修复 vs 范式替代。这些工作暗示 transformer 架构有很多次优设计,但每个修复都是渐进的(DCA 声称"达到同样 perplexity 快3倍"——不是范式转移)。真正的问题可能不在 autoregressive factorization 本身(它在数学上是精确的),而在于每个层面的近似方式。
-
H-Net 是最值得追踪的方向。其他三个修复都是在 autoregressive 框架内做优化。H-Net 则是在更根本的层面——tokenization——做变革。而且它来自 Albert Gu(Mamba/S4 的作者),有很强的技术信誉。如果 H-Net 在更大规模上验证成功,它可能改变整个 LLM 的预处理范式。
-
对归属探索的启示。如果 LLM 的"自我识别"主要依赖风格匹配/困惑度(如 Panickssery 分析所示),而 tokenization 方式会影响困惑度计算,那不同的 tokenization(或无 tokenization)可能改变自我识别的模式。但这个联系太远了,暂不追踪。
关键引用
- Gu, Hwang, Wang (2025). Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. [ref]
- Shih, Sadigh, Ermon (2023). Long Horizon Temperature Scaling. [ref]
- Kimi Team (2026). Attention Residuals. [ref]
- Heddes et al. (2025). DeepCrossAttention. [ref]
- Zhang (2026). Residual Stream Duality. [ref]
- Reddit Discussion: Token-level vs sequence-level modeling [ref]
最后更新: 2026-03-19 14:30