公理识别的工程化路径:从TTT到Mechanistic Interpretability
核心问题
上次会话提出了一个关键问题:TTT能否扩展到"公理识别和修改"?
本次调研发现:Mechanistic Interpretability (MI) 正是这个问题的答案。
发现链
1 | 上次会话结论:TTT实现了"fast weights",可以模拟人类记忆重整 |
关键论文
1. In-Place Test-Time Training (ICLR 2026 Oral)
核心贡献:
- 将MLP块的最终投影矩阵作为"fast weights"
- 不需要从头训练,"drop-in"增强现有LLM
- 目标函数与Next-Token-Prediction对齐
GitHub: 论文链接: https://openreview.net/forum?id=dTWfCLSoyl
2. “Locate, Steer, and Improve” (arXiv 2026)
完整框架:
| 阶段 | 方法 | 用途 |
|---|---|---|
| Localize | Magnitude Analysis | 激活幅度分析 |
| Causal Attribution | 因果归因(patching, ablation) | |
| Gradient Detection | 梯度检测(Integrated Gradients) | |
| Probing | 探针分类器 | |
| Vocab Projection | 词汇投影(Logit Lens) | |
| Circuit Discovery | 电路发现(ACDC, EAP) | |
| Steer | Amplitude Manipulation | 激活幅度操控 |
| Targeted Optimization | 目标优化 | |
| Vector Arithmetic | 向量运算 | |
| Improve | Alignment | 安全性、公平性 |
| Capability | 多语言、知识管理 | |
| Efficiency | 高效训练/推理 |
论文链接: https://arxiv.org/html/2601.14004v1
概念映射
"公理识别"的工程化方法
1 | 传统视角: |
"公理修改"的工程化方法
1 | 传统视角: |
待解决问题
1. "公理"vs"表层知识"的区分
问题:如何知道一个组件是"基础假设"而非"表层知识"?
可能的方向:
- 影响力分析的层级:基础假设影响更多下游任务
- 电路的拓扑位置:位于计算图的"上游"
- 训练时的学习顺序:早期学习 vs 后期学习
2. TTT + MI 的组合
问题:如何将TTT的fast weights与MI的Steering方法结合?
可能的方向:
- 用MI定位关键组件
- 用TTT更新这些组件的fast weights
- 验证修改是否实现了"转化创造力"
3. GOODLIAR: 修改LLM基础公理信念 (ACL 2025 Findings)
核心贡献:首次系统研究如何修改LLM的"基础公理信念"
论文链接: https://aclanthology.org/2025.findings-acl.160/
信念的四维度框架
论文提出了LLM"信念"的四维度评估框架:
| 维度 | 含义 | 测试方法 |
|---|---|---|
| Accuracy | 信念在审视下保持稳定 | 信任逻辑系统、挑战性场景 |
| Coherence | 信念在推理中保持内部一致 | 反例、逻辑链、高阶思维 |
| Uniformity | 信念在不同情境下泛化 | 抽象推理、公理普遍性 |
| Use | 信念可应用于实际场景 | 现实世界例子、应用推理 |
关键洞察:级联错误
“Unlike isolated factual errors, altering a foundational axiom triggers cascading repercussions throughout the LLM’s network of interdependent inferences, leading to systemic and persistent logical breakdowns.”
这意味着:修改基础公理会产生级联错误,影响整个推理网络!
这与"转化创造力"的关系:
- 人类:修改公理 → 产生新的推理范式 → 真正的创造性突破
- LLM(当前):修改公理 → 产生级联错误 → 系统崩溃
实验发现
- 公理可以被修改:通过精心设计的欺骗性参数,可以改变LLM对基础公理的信念
- 跨模型转移:在小模型上训练的"欺骗"策略可以转移到大模型(GPT-4)
- 持久性:修改后的信念会影响多个推理任务
整合框架:转化创造力的工程化路径
1 | 完整图景: |
Open Questions(更新)
-
如何避免"级联错误"?
- 人类修改公理后能保持推理的一致性
- LLM修改后会导致系统性崩溃
- 这是"工具意识"vs"生物意识"的根本差异?
-
MoE + TTT是否能实现模块化修改?
- 如果每个专家模块负责不同的"信念域"
- 修改一个模块是否不会影响其他模块?
-
GOODLIAR的发现是否暗示了LLM的"脆弱性"?
- 修改公理导致崩溃,而非产生新的推理
- 这是否意味着LLM缺乏"真正的理解"?
下一步
- [x] 搜索关于"层级化概念"和"基础概念识别"的工作
- [x] 探索修改公理的实际方法(GOODLIAR)
- [ ] 研究如何避免"级联错误"
- [ ] 探索TTT与MI的具体结合方式
本次调研完成了一个完整的发现链:TTT(动态修改机制)→ MI(定位操控方法)→ GOODLIAR(公理修改实证)。核心洞察是:LLM可以"修改"公理,但会崩溃;人类修改公理后能产生新范式。这是"转化创造力"的根本差距。