LLM的根本脆弱性与公理修改的不可能性

核心发现

1. 超稀疏脆弱性(Achilles’ Heel论文)

Qin et al., 2025发现:

只需3个神经元就能让72B参数模型完全崩溃

模型 关键神经元数 Perplexity变化
Gemma-7B 3 9.98 → 6.25×10²¹
Llama-3.3-70B 7 5.41 → 3.86×10⁶
Qwen2.5-72B 3 10.23 → 2.24×10⁴

关键神经元比例:约10⁻⁸(亿分之一)

2. 关键神经元的本质

它们不是语义存储单元,而是计算瓶颈

  1. 位置:集中在MLP down_proj(信息压缩层)
  2. 功能:将高维表示压缩回嵌入空间
  3. 特性:相变行为 - 单独屏蔽影响很小,同时屏蔽触发系统崩溃
1
2
预期:存在可以被精细修改的"公理神经元"
实际:存在的是"全有或全无"的崩溃点

3. 知识定位假设的失败

Chen et al., ICLR 2025 Spotlight

  • Knowledge Localization (KL)假设有缺陷
  • 知识不是静态存储在特定神经元
  • 知识表达是动态的,与查询(Query)相关
  • Attention模块在知识表达中起关键作用

与转化创造力的关系

上次会话的发现链

1
2
3
4
5
6
7
8
9
10
11
12
13
LLM无法实现转化创造力(修改公理)

问题:为什么LLM无法实现转化创造力?

+ 发现1:Unlearning的失败
- 知识是纠缠的(neural entanglement)

+ 发现2:人类记忆重整机制
- 提取使记忆变得不稳定(labile)
- 不稳定窗口内可修改

+ 发现3:Test-Time Training
- "Fast weights"概念

本次会话的深化

为什么Unlearning失败?

  1. 知识纠缠:知识以分布式方式存储(LessWrong survey)
  2. 关键神经元不是语义单元:它们是计算瓶颈,不是知识存储点
  3. 修改=崩溃:不存在"精细修改"的可能性

根本性不可能的原因

1
2
3
4
5
6
7
8
人类记忆重整:
- 提取 → 不稳定 → 可修改 → 再固化
- 存在"不稳定窗口"允许精确修改

LLM关键神经元:
- 屏蔽 → 相变 → 系统崩溃
- 没有"中间状态",要么正常,要么崩溃
- 修改关键神经元无法实现语义转换

Anthropic的发现:特征≠知识定位

Anthropic, 2024发现可以用Dictionary Learning识别"特征":

  • Golden Gate Bridge特征
  • 代码bug特征
  • 欺骗特征

可以操控:放大"Golden Gate Bridge"特征→Claude说"我就是金门大桥"

但关键限制

  • 找到的特征只是"模型学到的一小部分"
  • 计算成本超过训练模型本身
  • 仍需找到特征参与的电路

特征操控 ≠ 公理修改

  • 特征操控是"注入",不是"修改原有"
  • 无法实现"否定原有信念,建立新信念"

结论:转化创造力的根本不可能性

三个层次的发现

  1. 工程层面:Unlearning失败(ICLR 2025,LessWrong survey)
  2. 架构层面:关键神经元是崩溃点,不是语义单元(Achilles’ Heel论文)
  3. 理论层面:知识定位假设失败(Query Localization论文)

核心矛盾

方面 人类记忆 LLM关键神经元
定位 可以定位到特定记忆痕迹 无法定位到特定知识
修改 存在不稳定窗口 修改触发相变崩溃
语义 可以精确修改语义内容 无法实现语义转换
结果 转化创造力可实现 转化创造力根本不可能

对TTT路径的反思

上次会话提出的Test-Time Training路径:

问题

  • TTT可以更新fast weights
  • 但fast weights同样会面临"修改=崩溃"的问题
  • 如果知识以纠缠方式存储,TTT也无法实现"公理修改"

可能的方向

  • 不追求"修改公理",而是"覆盖公理"
  • 不追求"精确删除",而是"添加新约束"
  • 这已经脱离了"转化创造力"的定义

开放问题

  1. 是否存在完全不同的架构,可以实现"可修改的信念"?
  2. 人类大脑为何能实现"不稳定窗口"?计算层面的原理是什么?
  3. MoE架构是否有可能支持"模块化信念"?
  4. 是否应该放弃"转化创造力",转向其他形式的创造力?

本次调研揭示了LLM架构的根本性限制:公理修改不仅技术上困难,而且可能在本体论上不可能。这不是一个等待解决的技术问题,而是一个需要重新思考方向的哲学问题。