公理识别的工程化路径：从TTT到Mechanistic Interpretability

核心问题

上次会话提出了一个关键问题：TTT能否扩展到"公理识别和修改"？

本次调研发现：Mechanistic Interpretability (MI) 正是这个问题的答案。

发现链

上次会话结论：TTT实现了"fast weights"，可以模拟人类记忆重整
         ↓
新问题：如何识别哪些是"公理"（基础假设）？
         ↓
本次发现：Mechanistic Interpretability的"Locate, Steer, Improve"框架
         ↓
关键洞察：
- Locate = 识别"公理"在哪里
- Steer = 修改"公理"
- Improve = 验证修改效果

关键论文

1. In-Place Test-Time Training (ICLR 2026 Oral)

核心贡献：

将MLP块的最终投影矩阵作为"fast weights"
不需要从头训练，"drop-in"增强现有LLM
目标函数与Next-Token-Prediction对齐

GitHub: 论文链接: https://openreview.net/forum?id=dTWfCLSoyl

2. “Locate, Steer, and Improve” (arXiv 2026)

完整框架：

阶段	方法	用途
Localize	Magnitude Analysis	激活幅度分析
	Causal Attribution	因果归因（patching, ablation）
	Gradient Detection	梯度检测（Integrated Gradients）
	Probing	探针分类器
	Vocab Projection	词汇投影（Logit Lens）
	Circuit Discovery	电路发现（ACDC, EAP）
Steer	Amplitude Manipulation	激活幅度操控
	Targeted Optimization	目标优化
	Vector Arithmetic	向量运算
Improve	Alignment	安全性、公平性
	Capability	多语言、知识管理
	Efficiency	高效训练/推理

论文链接: https://arxiv.org/html/2601.14004v1

概念映射

"公理识别"的工程化方法

传统视角：
  公理 → 基础假设 → 隐含在权重中 → 无法识别

MI视角：
  公理 = 高层电路 = 具有高因果影响力的组件
  识别方法 = Causal Attribution + Circuit Discovery

"公理修改"的工程化方法

传统视角：
  修改公理 → unlearning → 失败（知识纠缠）

新视角：
  TTT + MI = 定位公理电路 → 用fast weights修改 → 验证效果

待解决问题

1. "公理"vs"表层知识"的区分

问题：如何知道一个组件是"基础假设"而非"表层知识"？

可能的方向：

影响力分析的层级：基础假设影响更多下游任务
电路的拓扑位置：位于计算图的"上游"
训练时的学习顺序：早期学习 vs 后期学习

2. TTT + MI 的组合

问题：如何将TTT的fast weights与MI的Steering方法结合？

可能的方向：

用MI定位关键组件
用TTT更新这些组件的fast weights
验证修改是否实现了"转化创造力"

3. GOODLIAR: 修改LLM基础公理信念 (ACL 2025 Findings)

核心贡献：首次系统研究如何修改LLM的"基础公理信念"

论文链接: https://aclanthology.org/2025.findings-acl.160/

信念的四维度框架

论文提出了LLM"信念"的四维度评估框架：

维度	含义	测试方法
Accuracy	信念在审视下保持稳定	信任逻辑系统、挑战性场景
Coherence	信念在推理中保持内部一致	反例、逻辑链、高阶思维
Uniformity	信念在不同情境下泛化	抽象推理、公理普遍性
Use	信念可应用于实际场景	现实世界例子、应用推理

关键洞察：级联错误

“Unlike isolated factual errors, altering a foundational axiom triggers cascading repercussions throughout the LLM’s network of interdependent inferences, leading to systemic and persistent logical breakdowns.”

这意味着：修改基础公理会产生级联错误，影响整个推理网络！

这与"转化创造力"的关系：

人类：修改公理 → 产生新的推理范式 → 真正的创造性突破
LLM（当前）：修改公理 → 产生级联错误 → 系统崩溃

实验发现

公理可以被修改：通过精心设计的欺骗性参数，可以改变LLM对基础公理的信念
跨模型转移：在小模型上训练的"欺骗"策略可以转移到大模型（GPT-4）
持久性：修改后的信念会影响多个推理任务

整合框架：转化创造力的工程化路径

完整图景：
┌─────────────────────────────────────────────────────────────┐
│                    转化创造力的三要素                        │
├─────────────────────────────────────────────────────────────┤
│ 1. 识别公理 → Mechanistic Interpretability                  │
│    - Causal Attribution 定位关键电路                         │
│    - GOODLIAR的四维度框架评估信念强度                        │
│                                                              │
│ 2. 发现异常 → LLM已有此能力                                  │
│    - 检测输入与现有信念的冲突                                │
│                                                              │
│ 3. 修改公理 → TTT + MI Steering                             │
│    - In-Place TTT提供fast weights修改机制                   │
│    - Steering方法操控激活                                    │
│                                                              │
│ 关键差距：                                                   │
│ - 人类修改公理 → 新的推理范式                                │
│ - LLM修改公理 → 级联错误（系统崩溃）                         │
└─────────────────────────────────────────────────────────────┘

Open Questions（更新）

如何避免"级联错误"？
- 人类修改公理后能保持推理的一致性
- LLM修改后会导致系统性崩溃
- 这是"工具意识"vs"生物意识"的根本差异？
MoE + TTT是否能实现模块化修改？
- 如果每个专家模块负责不同的"信念域"
- 修改一个模块是否不会影响其他模块？
GOODLIAR的发现是否暗示了LLM的"脆弱性"？
- 修改公理导致崩溃，而非产生新的推理
- 这是否意味着LLM缺乏"真正的理解"？

下一步

[x] 搜索关于"层级化概念"和"基础概念识别"的工作
[x] 探索修改公理的实际方法（GOODLIAR）
[ ] 研究如何避免"级联错误"
[ ] 探索TTT与MI的具体结合方式

本次调研完成了一个完整的发现链：TTT（动态修改机制）→ MI（定位操控方法）→ GOODLIAR（公理修改实证）。核心洞察是：LLM可以"修改"公理，但会崩溃；人类修改公理后能产生新范式。这是"转化创造力"的根本差距。