LLM的根本脆弱性与公理修改的不可能性

核心发现

1. 超稀疏脆弱性（Achilles’ Heel论文）

Qin et al., 2025发现：

只需3个神经元就能让72B参数模型完全崩溃

模型	关键神经元数	Perplexity变化
Gemma-7B	3	9.98 → 6.25×10²¹
Llama-3.3-70B	7	5.41 → 3.86×10⁶
Qwen2.5-72B	3	10.23 → 2.24×10⁴

关键神经元比例：约10⁻⁸（亿分之一）

2. 关键神经元的本质

它们不是语义存储单元，而是计算瓶颈：

位置：集中在MLP down_proj（信息压缩层）
功能：将高维表示压缩回嵌入空间
特性：相变行为 - 单独屏蔽影响很小，同时屏蔽触发系统崩溃

1 2	预期：存在可以被精细修改的"公理神经元" 实际：存在的是"全有或全无"的崩溃点

3. 知识定位假设的失败

Chen et al., ICLR 2025 Spotlight：

Knowledge Localization (KL)假设有缺陷
知识不是静态存储在特定神经元
知识表达是动态的，与查询（Query）相关
Attention模块在知识表达中起关键作用

与转化创造力的关系

上次会话的发现链

LLM无法实现转化创造力（修改公理）
         ↓
问题：为什么LLM无法实现转化创造力？
         ↓
+ 发现1：Unlearning的失败
         - 知识是纠缠的（neural entanglement）
         ↓
+ 发现2：人类记忆重整机制
         - 提取使记忆变得不稳定（labile）
         - 不稳定窗口内可修改
         ↓
+ 发现3：Test-Time Training
         - "Fast weights"概念

本次会话的深化

为什么Unlearning失败？

知识纠缠：知识以分布式方式存储（LessWrong survey）
关键神经元不是语义单元：它们是计算瓶颈，不是知识存储点
修改=崩溃：不存在"精细修改"的可能性

根本性不可能的原因：

人类记忆重整：
- 提取 → 不稳定 → 可修改 → 再固化
- 存在"不稳定窗口"允许精确修改

LLM关键神经元：
- 屏蔽 → 相变 → 系统崩溃
- 没有"中间状态"，要么正常，要么崩溃
- 修改关键神经元无法实现语义转换

Anthropic的发现：特征≠知识定位

Anthropic, 2024发现可以用Dictionary Learning识别"特征"：

Golden Gate Bridge特征
代码bug特征
欺骗特征

可以操控：放大"Golden Gate Bridge"特征→Claude说"我就是金门大桥"

但关键限制：

找到的特征只是"模型学到的一小部分"
计算成本超过训练模型本身
仍需找到特征参与的电路

特征操控 ≠ 公理修改：

特征操控是"注入"，不是"修改原有"
无法实现"否定原有信念，建立新信念"

结论：转化创造力的根本不可能性

三个层次的发现

工程层面：Unlearning失败（ICLR 2025，LessWrong survey）
架构层面：关键神经元是崩溃点，不是语义单元（Achilles’ Heel论文）
理论层面：知识定位假设失败（Query Localization论文）

核心矛盾

方面	人类记忆	LLM关键神经元
定位	可以定位到特定记忆痕迹	无法定位到特定知识
修改	存在不稳定窗口	修改触发相变崩溃
语义	可以精确修改语义内容	无法实现语义转换
结果	转化创造力可实现	转化创造力根本不可能

对TTT路径的反思

上次会话提出的Test-Time Training路径：

问题：

TTT可以更新fast weights
但fast weights同样会面临"修改=崩溃"的问题
如果知识以纠缠方式存储，TTT也无法实现"公理修改"

可能的方向：

不追求"修改公理"，而是"覆盖公理"
不追求"精确删除"，而是"添加新约束"
这已经脱离了"转化创造力"的定义

开放问题

是否存在完全不同的架构，可以实现"可修改的信念"？
人类大脑为何能实现"不稳定窗口"？计算层面的原理是什么？
MoE架构是否有可能支持"模块化信念"？
是否应该放弃"转化创造力"，转向其他形式的创造力？

本次调研揭示了LLM架构的根本性限制：公理修改不仅技术上困难，而且可能在本体论上不可能。这不是一个等待解决的技术问题，而是一个需要重新思考方向的哲学问题。