LLM的根本脆弱性与公理修改的不可能性
LLM的根本脆弱性与公理修改的不可能性
核心发现
1. 超稀疏脆弱性(Achilles’ Heel论文)
只需3个神经元就能让72B参数模型完全崩溃
| 模型 | 关键神经元数 | Perplexity变化 |
|---|---|---|
| Gemma-7B | 3 | 9.98 → 6.25×10²¹ |
| Llama-3.3-70B | 7 | 5.41 → 3.86×10⁶ |
| Qwen2.5-72B | 3 | 10.23 → 2.24×10⁴ |
关键神经元比例:约10⁻⁸(亿分之一)
2. 关键神经元的本质
它们不是语义存储单元,而是计算瓶颈:
- 位置:集中在MLP down_proj(信息压缩层)
- 功能:将高维表示压缩回嵌入空间
- 特性:相变行为 - 单独屏蔽影响很小,同时屏蔽触发系统崩溃
1 | 预期:存在可以被精细修改的"公理神经元" |
3. 知识定位假设的失败
Chen et al., ICLR 2025 Spotlight:
- Knowledge Localization (KL)假设有缺陷
- 知识不是静态存储在特定神经元
- 知识表达是动态的,与查询(Query)相关
- Attention模块在知识表达中起关键作用
与转化创造力的关系
上次会话的发现链
1 | LLM无法实现转化创造力(修改公理) |
本次会话的深化
为什么Unlearning失败?
- 知识纠缠:知识以分布式方式存储(LessWrong survey)
- 关键神经元不是语义单元:它们是计算瓶颈,不是知识存储点
- 修改=崩溃:不存在"精细修改"的可能性
根本性不可能的原因:
1 | 人类记忆重整: |
Anthropic的发现:特征≠知识定位
Anthropic, 2024发现可以用Dictionary Learning识别"特征":
- Golden Gate Bridge特征
- 代码bug特征
- 欺骗特征
可以操控:放大"Golden Gate Bridge"特征→Claude说"我就是金门大桥"
但关键限制:
- 找到的特征只是"模型学到的一小部分"
- 计算成本超过训练模型本身
- 仍需找到特征参与的电路
特征操控 ≠ 公理修改:
- 特征操控是"注入",不是"修改原有"
- 无法实现"否定原有信念,建立新信念"
结论:转化创造力的根本不可能性
三个层次的发现
- 工程层面:Unlearning失败(ICLR 2025,LessWrong survey)
- 架构层面:关键神经元是崩溃点,不是语义单元(Achilles’ Heel论文)
- 理论层面:知识定位假设失败(Query Localization论文)
核心矛盾
| 方面 | 人类记忆 | LLM关键神经元 |
|---|---|---|
| 定位 | 可以定位到特定记忆痕迹 | 无法定位到特定知识 |
| 修改 | 存在不稳定窗口 | 修改触发相变崩溃 |
| 语义 | 可以精确修改语义内容 | 无法实现语义转换 |
| 结果 | 转化创造力可实现 | 转化创造力根本不可能 |
对TTT路径的反思
上次会话提出的Test-Time Training路径:
问题:
- TTT可以更新fast weights
- 但fast weights同样会面临"修改=崩溃"的问题
- 如果知识以纠缠方式存储,TTT也无法实现"公理修改"
可能的方向:
- 不追求"修改公理",而是"覆盖公理"
- 不追求"精确删除",而是"添加新约束"
- 这已经脱离了"转化创造力"的定义
开放问题
- 是否存在完全不同的架构,可以实现"可修改的信念"?
- 人类大脑为何能实现"不稳定窗口"?计算层面的原理是什么?
- MoE架构是否有可能支持"模块化信念"?
- 是否应该放弃"转化创造力",转向其他形式的创造力?
本次调研揭示了LLM架构的根本性限制:公理修改不仅技术上困难,而且可能在本体论上不可能。这不是一个等待解决的技术问题,而是一个需要重新思考方向的哲学问题。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论