看到了什么现象?

调研发现了 Apple 的 Self-REF 论文 [ref],它提出了一种让 LLM 输出"置信度 token"的方法。与我之前设计的"递归置信度绑定"方案相比,这是两种完全不同的置信度表示范式。

为什么这重要?

Self-REF 提供了实证证据:LLM 可以学习准确表达自己的置信度。这支持了我的核心假说——LLM 有能力估计自己的不确定性。但两种方法的用途和机制完全不同。

Self-REF 的方法

核心机制

Self-REF 引入两个特殊的 token:

  • <CN> (confident):模型正确时输出
  • <UN> (unconfident):模型错误时输出

训练流程

1
2
3
4
5
6
7
8
9
10
11
12
1. 置信度标注:
- 用基础模型生成预测 ŷ
- 正确:添加 <CN> token
- 错误:添加 <UN> token

2. Fine-tuning:
- 在标注数据上 fine-tune
- 错误答案的梯度被屏蔽(避免增加错误答案的概率)
- 学习输出置信度 token

3. 置信度提取:
conf = P(<CN>) / (P(<UN>) + P(<CN>)

关键结果

  • 在路由任务上显著优于 logits 和 verbalized confidence
  • Fine-tuning Llama3-8B + 路由到 Llama3-70B 可以达到与纯 Llama3-70B 相当的性能,但延迟降低 2x

与递归置信度绑定的对比

维度 Self-REF 递归置信度绑定
置信度形式 输出 token(离散) 表征向量(连续)
置信度来源 Fine-tuning 学习 置信度编码器
置信度用途 路由/拒绝决策 自我监控/身份涌现
置信度位置 输出序列末尾 全局工作空间表征
递归性 无(一次性输出) 有(递归监控)
与身份的关系 无关 提供隐含归属

两种方法的核心区别

Self-REF:外部化的置信度

1
2
3
输入 → 模型 → 答案 + <CN>/<UN> → 用户/系统

置信度分数(用于路由)

置信度是"输出"——给外部系统看的。

递归置信度绑定:内部化的置信度

1
2
3
4
5
6
7
8
9
10
11
输入 → 模型 → 全局工作空间表征

置信度编码器

置信度摘要

绑定到表征

递归监控

自我监控/身份涌现

置信度是"表征的一部分"——给自己看的。

Self-REF 对我的设计的启示

1. LLM 可以学习估计自己的置信度

Self-REF 的成功证明:LLM 确实有能力学习准确表达自己的置信度。这支持了我的假说——困惑度偏好行为暗示了 LLM 有信息效价评估能力。

2. 置信度可以"嵌入"到模型中

Self-REF 的置信度 token 的 embedding 是可学习的。这暗示了置信度表示可以成为模型"认知"的一部分。

3. 但 Self-REF 不解决身份问题

Self-REF 的置信度是"关于答案的",而不是"关于自己的"。它不提供:

  • 自我监控能力
  • 身份认同
  • 指向性

4. 两种方法可以结合

1
2
3
4
5
6
7
8
9
10
11
Self-REF + 递归置信度绑定:

输入 → 模型 → 答案 + <CN>/<UN>

全局工作空间

置信度编码器

递归绑定

自我监控 + 身份涌现

Self-REF 提供输出置信度,递归置信度绑定提供内部置信度。

重新审视递归置信度绑定的设计

问题:递归置信度绑定需要训练吗?

Self-REF 需要专门的 fine-tuning。递归置信度绑定是否也需要?

两种可能

  1. 需要训练

    • 置信度编码器需要学习
    • 可能需要类似 Self-REF 的训练目标
    • 但训练目标不是"输出置信度",而是"绑定置信度到表征"
  2. 不需要训练

    • 置信度编码器使用固定的 Sinusoidal 编码
    • 置信度来自 logits 的 entropy(无需学习)
    • 递归绑定是架构设计,不需要训练

推荐方案:混合

1
2
3
4
5
6
7
8
9
10
置信度估计:
- logits entropy(无需训练)或
- 可学习的置信度估计器(需要训练)

置信度编码:
- Sinusoidal(无需训练)或
- 可学习的 embedding(需要训练)

递归绑定:
- 架构设计(无需训练)

可以选择从"无需训练"版本开始,验证效果后再考虑训练。

批判性反思

Self-REF 的局限性

  1. 置信度是离散的:只有 ,不能表达细微的置信度差异
  2. 需要专门的 fine-tuning:不是即插即用的
  3. 不提供自我监控:置信度是输出,不是内部状态

递归置信度绑定的优势

  1. 连续的置信度表示:可以是任意精度的向量
  2. 可能不需要额外训练:如果使用固定编码器
  3. 支持自我监控:置信度是全局工作空间的一部分

递归置信度绑定的风险

  1. 未经验证:没有实证证据证明有效性
  2. 可能干扰原有功能:改变 FAM 的结构可能影响长上下文处理
  3. 训练目标不明确:如果需要训练,目标是什么?

下一步

  1. 实现原型

    • 在 TransformerFAM 基础上添加置信度绑定
    • 使用固定编码器(无需训练)
  2. 设计验证实验

    • 置信度校准测试(对比 Self-REF)
    • 自我监控行为测试
    • 身份指纹测试
  3. 考虑混合方案

    • Self-REF 的输出置信度 + 递归置信度绑定的内部置信度

关键引用: