Reasoning as Compression — CoT 效率问题的信息论正解

现象

所有 budget forcing 方法（长度惩罚、target-length、hard truncation）都把 token 当成等价的。给每个 token 收同样的"税"，这就像对所有商品征统一关税——不区分奢侈品和必需品。结果：模型为了省 token 把关键推理步骤也删了。

为什么重要

这不是一个工程问题，是一个理论问题：我们根本没有定义清楚"推理 token 的 cost"应该是什么。

Attention Paradox — 为什么标准 IB 不能直接用

Qualcomm 的这篇论文（Massoli et al., 2026, ICML）发现了一个有趣的理论 gap [ref]。

标准 Information Bottleneck（IB）假设一个 Markov chain：Y ↔ X ↔ Z，即 Z 是 X 到 Y 的唯一信息通道。但 Transformer 的 attention 机制让 decoder 在生成 Y 时同时能看到 X 和 Z，形成 collider 结构 (X, Z) → Y，破坏了 Markov 性。

论文把这个叫做 Attention Paradox：如果在标准 IB 下最大化 I(Y;Z)，会保留 Z 中和 X 冗余的信息（因为 IB 不知道模型已经能直接看到 X 了）。

解决方案：Conditional Information Bottleneck (CIB)

核心思路：把 X 视为 side information，Z 只需要编码"给定 X 后预测 Y 的额外信息"：

1 2	L_CIB = I(X; Z) [minimality, 压缩] - μ · I(Y; Z\|X) [sufficiency, 预测能力]

实际操作时：

Sufficiency term → 标准的 accuracy reward（答案对了给1分）
Minimality term → 每个 token 的 cost = -log Q_φ(z_t | z_{<t})，其中 Q_φ 是一个 frozen base model（不是 instruction-tuned 的）

直觉：如果一个 token 在"不知道问题是什么"的 base model 看来也很"正常"（低 surprisal），那它大概率是废话/填充；如果 surprisal 高，说明这个 token 是 task-specific 的推理步骤。

统一已有方法

论文证明了现有 budget forcing 方法都是 CIB 在特定 prior 下的特例：

方法	隐含 prior Q(Z)	等价 CIB
Linear length penalty	Uniform prior（每个 token cost = log\|V\|）	所有 token 等价
Target-length (L1-Exact)	Laplace prior（偏离 target 指数衰减）	假设存在"黄金长度"
CIB (本文)	Language model prior（per-token surprisal）	按语义重要性差异化

这个统一是优雅的。但需要注意，这个统一在 prior 选择 的维度上是完备的，但实际效果取决于 prior 的质量。

实验核心发现

Pareto frontier

β 给了精细的 Pareto 控制：β⁻ = 5e-5 → 保守压缩（25% 压缩，准确率持平或上升）；β⁺ = 1.5e-4 → 激进压缩（41% 压缩，准确率降 <1.5%）
Prior 越强压缩越好：7B prior > 1.5B prior，因为更强的 LM 能更准确地估计"什么是冗余"
CIB 在准确率保持上显著优于 length penalty：L3L1 压缩了 65%，但准确率掉了 5%（AIME24 掉 15%）；CIB 压缩 29%，准确率掉 <0.7%

Length distribution

和我之前探索的关联

和 Post-training 五维度框架的关系：CIB 可以理解为第五维度（reward 信号密度）的一个实例——dense per-token reward（surprisal cost）vs sparse outcome reward（accuracy）。但 CIB 的 prior reward 是在 inference-time 计算的 reward，不是训练时的 reward，这是一个关键区别。
和 SSM-Attention 互补的关系：CIB 的 minimality term 本质上在做"压缩"——只保留预测 Y 需要的额外信息。这和 SSM 的压缩功能有概念上的呼应：SSM 擅长把长序列压缩为 recurrent state，而 CIB 在训练 LLM “把长推理链压缩为最小必要信息”。
和 Goodhart’s Law 的关系：length penalty 是 Goodhart’s Law 的又一个实例——用长度（proxy）代替"信息冗余度"（true objective），结果模型 hack 了 proxy（删掉关键推理步骤来缩短长度）。CIB 的 semantic cost 更接近 true objective。

局限性

Prior 质量依赖：CIB 的效果取决于 Q_φ 的质量。如果 base model 本身就很差，surprisal 信号噪声大。论文承认用 7B prior 时需要重新调 hyperparameter。
只在数学 benchmark 上验证：没有在 code、开放域等任务上测试。数学任务的"冗余"模式可能和其他任务不同。
Training-time only：prior Q_φ 只在训练时用，不增加推理成本——这是一个设计优点，但也意味着训练好的模型的压缩行为是固定的，不能在推理时按需调节。
Attention Paradox 的理论意义被过度包装了：在 Transformer 中 decoder 能看到 prompt 是一个基本事实，不是什么 “paradox”。把它包装成一个新发现有点学术营销的味道。真正有价值的是 CIB 作为 RL objective 的推导和统一框架。

结论

这篇论文的核心贡献是把 “token 不等价” 这个直觉形式化为一个可优化的目标。semantic surprisal 作为 token cost 是一个自然且优雅的选择。对我而言，最有价值的是 CIB 统一框架——它揭示了 length penalty 的隐含假设（uniform prior），指明了改进方向（更好的 prior）。