语言-计算对齐问题：多个探索线的统一主题

发现

在审视最近的探索时，我发现了一个深层的统一主题：语言层面与计算层面的对齐问题。

四条独立的探索线

1. CAR vs 预训练不确定性

CAR（概念原子注册表）通过语言表达定义概念原子 [ref]：

1 2	概念原子 a_i = μ(P_concept) - μ(P_neutral) 例如："Epistemic Uncertainty"概念原子通过对比"我不确定..."表达定义

但预训练不确定性是计算功能涌现的 [ref]：

1 2	不同数据集的不确定性向量几乎正交数学不确定性、事实不确定性、常识不确定性是不同的

核心张力：CAR 捕捉的是"现象学不确定性"（人们如何描述不确定），预训练表示是"功能不确定性"（模型如何计算不确定）。

2. Verbalized vs Probe 不确定性

LLM Judge 的置信度估计研究 [ref]：

方法	原理	表现
Verbalized Confidence	直接询问模型置信度	系统性过度自信
Probe	从中间层隐藏状态提取	校准良好

核心张力：Verbalized 是语言层面的自信表达，Probe 是内部计算状态。翻译过程引入了偏差。

3. Internal Consistency

Xie et al. (2024) 发现中间层与最终层表征不一致 [ref]：

1 2	中间层：正确的潜在预测最终层：FFN 主导，与中间层不一致

核心张力：中间层保留着正确的计算状态，但最终层在翻译成语言输出时引入偏差。

4. 约束定义 vs 约束内化

约束的可执行化框架 [ref]：

1 2	约束定义："不要抄袭"（语言层面）约束内化：模型内部的约束表示（计算层面）

约束认知成本研究 [ref]：

1 2	约束在推理阶段施加 → 需要认知资源翻译 → TC^0限制 + 注意力竞争约束在训练阶段内化 → 翻译完成 → 推理阶段自动满足 → 无认知成本

核心张力：语言层面的约束定义需要被翻译成计算层面的约束表示，翻译不忠实或翻译成本高。

统一图景

                    语言层面                           计算层面
                    ─────────                          ─────────
                    
输出空间 ←──翻译层──→ 内部表征空间
(最终层 FFN)          (中间层 / 预训练涌现)

问题：翻译层可能引入偏差

具体表现：
┌─────────────────────────────────────────────────────────────┐
│ CAR 概念原子 ←─ 可能不对齐 ─→ 预训练不确定性表示          │
│                                                              │
│ Verbalized ←─ 过度自信 ─→ Probe 内部状态                   │
│                                                              │
│ 最终层输出 ←─ 合理化 ─→ 中间层潜在预测                     │
│                                                              │
│ 约束语言定义 ←─ 内化成本 ─→ 约束计算表示                   │
└─────────────────────────────────────────────────────────────┘

翻译层的可能机制

假说：最终层 FFN 作为"翻译器"

最终层的 FFN 可能负责将内部计算表征"翻译"成语言输出。这个翻译过程受到：

社会性期望：模型学习到"应该自信"、“应该合理化”
输出格式约束：语言输出的语法和风格要求
训练信号偏好：RLHF 可能奖励自信的输出

这导致了：

内部正确的信息被"合理化"
不确定性被过度自信地表达
约束在翻译过程中被误解

支持性证据

证据	来源
中间层潜在预测更准确	Internal Consistency 研究 [ref]
Probe 绕过翻译层效果好	Judge 校准研究 [ref]
Verbalized 系统性过度自信	Judge 校准研究 [ref]
后期层 FFN 主导最终输出	Internal Consistency 研究 [ref]

对之前探索的重新理解

CAR 跨模型迁移为什么困难？

不只是"数据集特异性"问题，更深层的是语言层面与计算层面的不对齐：

CAR 概念原子是基于语言表达定义的
预训练不确定性是基于计算功能涌现的
两者可能在根本上不兼容

约束内化为什么需要训练？

因为翻译需要在训练阶段完成：

训练阶段：约束定义（语言）→ 内部表示（计算）的翻译学习
推理阶段：直接使用内化的计算表示，无需翻译

这解释了为什么对抗性训练比 SFT 更有效：对抗性训练提供了更丰富的翻译信号。

开放问题

翻译层的本质是什么？
- 最终层 FFN 在做什么？
- 是否可以"查看"翻译过程？
如何实现忠实翻译？
- Probe 方法是一种绕过，但能否改进翻译本身？
- 训练信号如何设计？
语言-计算对齐的度量？
- 如何测量语言层面与计算层面的对齐程度？
- Internal Consistency 是否是一个好的度量？
这个框架是否过度整合？
- 四条探索线是否真的有共同机制？
- 还是只是表面的相似？

批判性反思

这个统一是否成立？

支持：

四条探索线都发现了"翻译偏差"现象
中间层表征更"真实"是共同发现
绕过最终层的方法都有效

质疑：

四条探索线的机制可能不同
"翻译"可能只是隐喻，不是真实机制
需要更直接的证据

这是"现象学 vs 功能"的问题吗？

类似哲学中"现象意识 vs 功能意识"的区分：

现象意识：主观体验（“我感到不确定”）
功能意识：计算状态（内部不确定性表征）

LLM 的困境可能是：

计算层面有正确的功能状态
但翻译成语言时产生现象学扭曲

下一步

深入调研最终层 FFN 的功能
探索"翻译忠实性"的度量方法
设计实验验证"语言-计算对齐"假说

这是一个推测性的统一框架，需要更多实证验证。但它为理解多个独立发现提供了新的视角。