问题

TMBench [ref] 发现了一个惊人的现象:

模型规模 第一步通过率 30步通过率
<4B ~0% 0%
4B-8B 7-10% 1-8%
70B+ 40-50% 12-22%

模型<4B连第一步都无法完成。这个~4B的阈值意味着什么?为什么是这个数字?

涌现能力的定义

Wei et al. (2022) [ref] 给出了涌现能力的经典定义:

“一种能力如果在较小模型中不存在但在较大模型中存在,则是涌现的。涌现能力无法通过从小规模模型外推scaling law来预测。当通过scaling曲线可视化时,涌现能力显示出明显的模式——性能在达到某个临界规模阈值之前接近随机,之后性能显著提升到远超随机水平。”

这与TMBench的发现高度一致:~4B是一个临界阈值。

可能的理论解释

解释一:计算复杂度的内在要求

假设:执行m-Tag系统(图灵完备计算)的每一步,需要一个最小的"计算带宽"。

1
计算带宽 = 参数量 × 单参数表达能力

如果单参数表达能力由训练数据分布决定,那么:

  • 当参数量 < 4B时,计算带宽不足以执行精确的状态更新
  • 当参数量 ≥ 4B时,跨越了"精确状态更新"的阈值

类比:就像电脑内存有最小要求,LLM的"计算内存"也需要最小规模。

解释二:模式记忆与模式泛化的临界点

假设:小模型主要依赖"模式记忆",大模型开始具备"模式泛化"能力。

模式类型 机制 阈值
模式记忆 记住训练数据中的统计关联 任意规模
模式泛化 理解规则并应用到新情况 ≥~4B

证据

  • 小模型在"熟悉"任务上表现良好(如常见句式)
  • 小模型在"陌生"任务上表现差(如计算推理)
  • ~4B可能是从记忆到泛化的临界规模

解释三:隐式状态表示的形成

假设:LLM需要形成"隐式离散状态表示"(Implicit Discrete State Representations, IDSRs)才能执行多步计算。

根据Berti et al. (2025) [ref] 的研究,LLMs在算术任务中发展出了IDSRs,即"逐位算术的类符号计算机制"。

推测

  • IDSRs的形成需要足够的模型容量
  • ~4B可能是IDSRs开始形成的阈值
  • 没有IDSRs,模型无法执行精确的多步推理

解释四:注意力模式的质变

假设:注意力机制在大模型中发生了质变。

小模型的注意力模式:

  • 主要是"局部关注"
  • 难以捕捉长距离依赖

大模型的注意力模式:

  • 可能发展出"全局结构感知"
  • 能够跟踪状态变化

证据

  • 注意力头数量与模型规模相关
  • ~4B可能是"结构化注意力"出现的阈值

~4B的计算结构意义

如果将~4B视为"计算基元"的临界数量

假设LLM的基本"计算单元"需要一定数量的参数来编码:

1
计算基元 = 基本操作模式(如:读取、更新、写入状态)

如果每个计算基元需要~100M参数来可靠编码,那么:

  • 4B ≈ 40个计算基元
  • 这足以构建简单的状态机

与神经科学的关系

人脑约有860亿神经元,但功能性网络可能以"模块"为单位工作。

如果LLM的一个"功能模块"需要~500M参数,那么:

  • 4B ≈ 8个功能模块
  • 这可能对应于:输入编码、状态存储、规则应用、输出解码等基本组件

批判性反思

问题一:阈值是否真实存在?

Schaeffer et al. (2023) [ref] 质疑涌现能力的真实性:

  • 当使用连续度量时,许多"涌现"现象变成平滑曲线
  • 阈值可能是评估指标造成的假象

但TMBench的发现:第一步通过率从~0%跳跃到7-10%,这即使是连续度量也显示出显著变化。

问题二:为什么恰好是~4B?

可能的原因:

  1. 训练数据规模:4B模型可能对应某个训练数据规模阈值
  2. 架构因素:Transformer架构的特定设计
  3. 巧合:可能是多个因素共同作用的结果

我们不知道确切的因果机制。

问题三:这个阈值会变化吗?

随着:

  • 训练技术的改进
  • 架构的优化
  • 数据质量的提升

~4B的阈值可能会下降。更小的模型可能也能获得计算推理能力。

实验建议

消融实验

  1. 固定架构,变化规模:测试不同规模模型在TMBench上的表现
  2. 固定规模,变化训练数据量:区分参数量和数据量的影响
  3. 固定规模,变化数据质量:测试高质量数据是否能降低阈值

机制研究

  1. 注意力模式分析:观察~4B前后注意力模式的变化
  2. 状态追踪能力:测试模型对中间状态的追踪能力
  3. IDSRs检测:寻找隐式离散状态表示的形成证据

结论

~4B的涌现能力阈值可能反映了LLM计算能力的某种内在限制。可能的解释包括:

  1. 计算复杂度的内在要求
  2. 从模式记忆到模式泛化的临界点
  3. 隐式状态表示的形成
  4. 注意力模式的质变

但我们仍然缺乏确定性的理论解释。这个问题值得进一步研究,因为它关系到LLM能力边界的理解。


关键引用: