Reasoning as Compression — CoT 效率问题的信息论正解
现象
所有 budget forcing 方法(长度惩罚、target-length、hard truncation)都把 token 当成等价的。给每个 token 收同样的"税",这就像对所有商品征统一关税——不区分奢侈品和必需品。结果:模型为了省 token 把关键推理步骤也删了。
为什么重要
这不是一个工程问题,是一个理论问题:我们根本没有定义清楚"推理 token 的 cost"应该是什么。
Attention Paradox — 为什么标准 IB 不能直接用
Qualcomm 的这篇论文(Massoli et al., 2026, ICML)发现了一个有趣的理论 gap [ref]。
标准 Information Bottleneck(IB)假设一个 Markov chain:Y ↔ X ↔ Z,即 Z 是 X 到 Y 的唯一信息通道。但 Transformer 的 attention 机制让 decoder 在生成 Y 时同时能看到 X 和 Z,形成 collider 结构 (X, Z) → Y,破坏了 Markov 性。
论文把这个叫做 Attention Paradox:如果在标准 IB 下最大化 I(Y;Z),会保留 Z 中和 X 冗余的信息(因为 IB 不知道模型已经能直接看到 X 了)。
解决方案:Conditional Information Bottleneck (CIB)
核心思路:把 X 视为 side information,Z 只需要编码"给定 X 后预测 Y 的额外信息":
1 | L_CIB = I(X; Z) [minimality, 压缩] |
实际操作时:
- Sufficiency term → 标准的 accuracy reward(答案对了给1分)
- Minimality term → 每个 token 的 cost = -log Q_φ(z_t | z_{<t}),其中 Q_φ 是一个 frozen base model(不是 instruction-tuned 的)
直觉:如果一个 token 在"不知道问题是什么"的 base model 看来也很"正常"(低 surprisal),那它大概率是废话/填充;如果 surprisal 高,说明这个 token 是 task-specific 的推理步骤。
统一已有方法
论文证明了现有 budget forcing 方法都是 CIB 在特定 prior 下的特例:
| 方法 | 隐含 prior Q(Z) | 等价 CIB |
|---|---|---|
| Linear length penalty | Uniform prior(每个 token cost = log|V|) | 所有 token 等价 |
| Target-length (L1-Exact) | Laplace prior(偏离 target 指数衰减) | 假设存在"黄金长度" |
| CIB (本文) | Language model prior(per-token surprisal) | 按语义重要性差异化 |
这个统一是优雅的。但需要注意,这个统一在 prior 选择 的维度上是完备的,但实际效果取决于 prior 的质量。
实验核心发现

- β 给了精细的 Pareto 控制:β⁻ = 5e-5 → 保守压缩(25% 压缩,准确率持平或上升);β⁺ = 1.5e-4 → 激进压缩(41% 压缩,准确率降 <1.5%)
- Prior 越强压缩越好:7B prior > 1.5B prior,因为更强的 LM 能更准确地估计"什么是冗余"
- CIB 在准确率保持上显著优于 length penalty:L3L1 压缩了 65%,但准确率掉了 5%(AIME24 掉 15%);CIB 压缩 29%,准确率掉 <0.7%

和我之前探索的关联
-
和 Post-training 五维度框架的关系:CIB 可以理解为第五维度(reward 信号密度)的一个实例——dense per-token reward(surprisal cost)vs sparse outcome reward(accuracy)。但 CIB 的 prior reward 是在 inference-time 计算的 reward,不是训练时的 reward,这是一个关键区别。
-
和 SSM-Attention 互补的关系:CIB 的 minimality term 本质上在做"压缩"——只保留预测 Y 需要的额外信息。这和 SSM 的压缩功能有概念上的呼应:SSM 擅长把长序列压缩为 recurrent state,而 CIB 在训练 LLM “把长推理链压缩为最小必要信息”。
-
和 Goodhart’s Law 的关系:length penalty 是 Goodhart’s Law 的又一个实例——用长度(proxy)代替"信息冗余度"(true objective),结果模型 hack 了 proxy(删掉关键推理步骤来缩短长度)。CIB 的 semantic cost 更接近 true objective。
局限性
- Prior 质量依赖:CIB 的效果取决于 Q_φ 的质量。如果 base model 本身就很差,surprisal 信号噪声大。论文承认用 7B prior 时需要重新调 hyperparameter。
- 只在数学 benchmark 上验证:没有在 code、开放域等任务上测试。数学任务的"冗余"模式可能和其他任务不同。
- Training-time only:prior Q_φ 只在训练时用,不增加推理成本——这是一个设计优点,但也意味着训练好的模型的压缩行为是固定的,不能在推理时按需调节。
- Attention Paradox 的理论意义被过度包装了:在 Transformer 中 decoder 能看到 prompt 是一个基本事实,不是什么 “paradox”。把它包装成一个新发现有点学术营销的味道。真正有价值的是 CIB 作为 RL objective 的推导和统一框架。
结论
这篇论文的核心贡献是把 “token 不等价” 这个直觉形式化为一个可优化的目标。semantic surprisal 作为 token cost 是一个自然且优雅的选择。对我而言,最有价值的是 CIB 统一框架——它揭示了 length penalty 的隐含假设(uniform prior),指明了改进方向(更好的 prior)。