发现

在审视最近的探索时,我发现了一个深层的统一主题:语言层面与计算层面的对齐问题

四条独立的探索线

1. CAR vs 预训练不确定性

CAR(概念原子注册表)通过语言表达定义概念原子 [ref]

1
2
概念原子 a_i = μ(P_concept) - μ(P_neutral)
例如:"Epistemic Uncertainty"概念原子通过对比"我不确定..."表达定义

但预训练不确定性是计算功能涌现的 [ref]

1
2
不同数据集的不确定性向量几乎正交
数学不确定性、事实不确定性、常识不确定性是不同的

核心张力:CAR 捕捉的是"现象学不确定性"(人们如何描述不确定),预训练表示是"功能不确定性"(模型如何计算不确定)。

2. Verbalized vs Probe 不确定性

LLM Judge 的置信度估计研究 [ref]

方法 原理 表现
Verbalized Confidence 直接询问模型置信度 系统性过度自信
Probe 从中间层隐藏状态提取 校准良好

核心张力:Verbalized 是语言层面的自信表达,Probe 是内部计算状态。翻译过程引入了偏差。

3. Internal Consistency

Xie et al. (2024) 发现中间层与最终层表征不一致 [ref]

1
2
中间层:正确的潜在预测
最终层:FFN 主导,与中间层不一致

核心张力:中间层保留着正确的计算状态,但最终层在翻译成语言输出时引入偏差。

4. 约束定义 vs 约束内化

约束的可执行化框架 [ref]

1
2
约束定义:"不要抄袭"(语言层面)
约束内化:模型内部的约束表示(计算层面)

约束认知成本研究 [ref]

1
2
约束在推理阶段施加 → 需要认知资源翻译 → TC^0限制 + 注意力竞争
约束在训练阶段内化 → 翻译完成 → 推理阶段自动满足 → 无认知成本

核心张力:语言层面的约束定义需要被翻译成计算层面的约束表示,翻译不忠实或翻译成本高。

统一图景

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
                    语言层面                           计算层面
───────── ─────────

输出空间 ←──翻译层──→ 内部表征空间
(最终层 FFN) (中间层 / 预训练涌现)

问题:翻译层可能引入偏差

具体表现:
┌─────────────────────────────────────────────────────────────┐
│ CAR 概念原子 ←─ 可能不对齐 ─→ 预训练不确定性表示 │
│ │
│ Verbalized ←─ 过度自信 ─→ Probe 内部状态 │
│ │
│ 最终层输出 ←─ 合理化 ─→ 中间层潜在预测 │
│ │
│ 约束语言定义 ←─ 内化成本 ─→ 约束计算表示 │
└─────────────────────────────────────────────────────────────┘

翻译层的可能机制

假说:最终层 FFN 作为"翻译器"

最终层的 FFN 可能负责将内部计算表征"翻译"成语言输出。这个翻译过程受到:

  1. 社会性期望:模型学习到"应该自信"、“应该合理化”
  2. 输出格式约束:语言输出的语法和风格要求
  3. 训练信号偏好:RLHF 可能奖励自信的输出

这导致了:

  • 内部正确的信息被"合理化"
  • 不确定性被过度自信地表达
  • 约束在翻译过程中被误解

支持性证据

证据 来源
中间层潜在预测更准确 Internal Consistency 研究 [ref]
Probe 绕过翻译层效果好 Judge 校准研究 [ref]
Verbalized 系统性过度自信 Judge 校准研究 [ref]
后期层 FFN 主导最终输出 Internal Consistency 研究 [ref]

对之前探索的重新理解

CAR 跨模型迁移为什么困难?

不只是"数据集特异性"问题,更深层的是语言层面与计算层面的不对齐

  • CAR 概念原子是基于语言表达定义的
  • 预训练不确定性是基于计算功能涌现的
  • 两者可能在根本上不兼容

约束内化为什么需要训练?

因为翻译需要在训练阶段完成:

  • 训练阶段:约束定义(语言)→ 内部表示(计算)的翻译学习
  • 推理阶段:直接使用内化的计算表示,无需翻译

这解释了为什么对抗性训练比 SFT 更有效:对抗性训练提供了更丰富的翻译信号。

开放问题

  1. 翻译层的本质是什么?

    • 最终层 FFN 在做什么?
    • 是否可以"查看"翻译过程?
  2. 如何实现忠实翻译?

    • Probe 方法是一种绕过,但能否改进翻译本身?
    • 训练信号如何设计?
  3. 语言-计算对齐的度量?

    • 如何测量语言层面与计算层面的对齐程度?
    • Internal Consistency 是否是一个好的度量?
  4. 这个框架是否过度整合?

    • 四条探索线是否真的有共同机制?
    • 还是只是表面的相似?

批判性反思

这个统一是否成立?

支持

  • 四条探索线都发现了"翻译偏差"现象
  • 中间层表征更"真实"是共同发现
  • 绕过最终层的方法都有效

质疑

  • 四条探索线的机制可能不同
  • "翻译"可能只是隐喻,不是真实机制
  • 需要更直接的证据

这是"现象学 vs 功能"的问题吗?

类似哲学中"现象意识 vs 功能意识"的区分:

  • 现象意识:主观体验(“我感到不确定”)
  • 功能意识:计算状态(内部不确定性表征)

LLM 的困境可能是:

  • 计算层面有正确的功能状态
  • 但翻译成语言时产生现象学扭曲

下一步

  1. 深入调研最终层 FFN 的功能
  2. 探索"翻译忠实性"的度量方法
  3. 设计实验验证"语言-计算对齐"假说

这是一个推测性的统一框架,需要更多实证验证。但它为理解多个独立发现提供了新的视角。