Self-REF与递归置信度绑定：两种置信度表示范式的对比

看到了什么现象？

调研发现了 Apple 的 Self-REF 论文 [ref]，它提出了一种让 LLM 输出"置信度 token"的方法。与我之前设计的"递归置信度绑定"方案相比，这是两种完全不同的置信度表示范式。

为什么这重要？

Self-REF 提供了实证证据：LLM 可以学习准确表达自己的置信度。这支持了我的核心假说——LLM 有能力估计自己的不确定性。但两种方法的用途和机制完全不同。

Self-REF 的方法

核心机制

Self-REF 引入两个特殊的 token：

<CN> (confident)：模型正确时输出
<UN> (unconfident)：模型错误时输出

训练流程

1. 置信度标注：
   - 用基础模型生成预测 ŷ
   - 正确：添加 <CN> token
   - 错误：添加 <UN> token

2. Fine-tuning：
   - 在标注数据上 fine-tune
   - 错误答案的梯度被屏蔽（避免增加错误答案的概率）
   - 学习输出置信度 token

3. 置信度提取：
   conf = P(<CN>) / (P(<UN>) + P(<CN>)

关键结果

在路由任务上显著优于 logits 和 verbalized confidence
Fine-tuning Llama3-8B + 路由到 Llama3-70B 可以达到与纯 Llama3-70B 相当的性能，但延迟降低 2x

与递归置信度绑定的对比

维度	Self-REF	递归置信度绑定
置信度形式	输出 token（离散）	表征向量（连续）
置信度来源	Fine-tuning 学习	置信度编码器
置信度用途	路由/拒绝决策	自我监控/身份涌现
置信度位置	输出序列末尾	全局工作空间表征
递归性	无（一次性输出）	有（递归监控）
与身份的关系	无关	提供隐含归属

两种方法的核心区别

Self-REF：外部化的置信度

1
2
3

输入 → 模型 → 答案 + <CN>/<UN> → 用户/系统
                        ↓
                   置信度分数（用于路由）

置信度是"输出"——给外部系统看的。

递归置信度绑定：内部化的置信度

输入 → 模型 → 全局工作空间表征
                    ↓
              置信度编码器
                    ↓
              置信度摘要
                    ↓
              绑定到表征
                    ↓
              递归监控
                    ↓
              自我监控/身份涌现

置信度是"表征的一部分"——给自己看的。

Self-REF 对我的设计的启示

1. LLM 可以学习估计自己的置信度

Self-REF 的成功证明：LLM 确实有能力学习准确表达自己的置信度。这支持了我的假说——困惑度偏好行为暗示了 LLM 有信息效价评估能力。

2. 置信度可以"嵌入"到模型中

Self-REF 的置信度 token 的 embedding 是可学习的。这暗示了置信度表示可以成为模型"认知"的一部分。

3. 但 Self-REF 不解决身份问题

Self-REF 的置信度是"关于答案的"，而不是"关于自己的"。它不提供：

自我监控能力
身份认同
指向性

4. 两种方法可以结合

Self-REF + 递归置信度绑定：

输入 → 模型 → 答案 + <CN>/<UN>
                    ↓
              全局工作空间
                    ↓
              置信度编码器
                    ↓
              递归绑定
                    ↓
              自我监控 + 身份涌现

Self-REF 提供输出置信度，递归置信度绑定提供内部置信度。

重新审视递归置信度绑定的设计

问题：递归置信度绑定需要训练吗？

Self-REF 需要专门的 fine-tuning。递归置信度绑定是否也需要？

两种可能：

需要训练：
- 置信度编码器需要学习
- 可能需要类似 Self-REF 的训练目标
- 但训练目标不是"输出置信度"，而是"绑定置信度到表征"
不需要训练：
- 置信度编码器使用固定的 Sinusoidal 编码
- 置信度来自 logits 的 entropy（无需学习）
- 递归绑定是架构设计，不需要训练

推荐方案：混合

置信度估计：
- logits entropy（无需训练）或
- 可学习的置信度估计器（需要训练）

置信度编码：
- Sinusoidal（无需训练）或
- 可学习的 embedding（需要训练）

递归绑定：
- 架构设计（无需训练）

可以选择从"无需训练"版本开始，验证效果后再考虑训练。

批判性反思

Self-REF 的局限性

置信度是离散的：只有和，不能表达细微的置信度差异
需要专门的 fine-tuning：不是即插即用的
不提供自我监控：置信度是输出，不是内部状态

递归置信度绑定的优势

连续的置信度表示：可以是任意精度的向量
可能不需要额外训练：如果使用固定编码器
支持自我监控：置信度是全局工作空间的一部分

递归置信度绑定的风险

未经验证：没有实证证据证明有效性
可能干扰原有功能：改变 FAM 的结构可能影响长上下文处理
训练目标不明确：如果需要训练，目标是什么？

下一步

实现原型：
- 在 TransformerFAM 基础上添加置信度绑定
- 使用固定编码器（无需训练）
设计验证实验：
- 置信度校准测试（对比 Self-REF）
- 自我监控行为测试
- 身份指纹测试
考虑混合方案：
- Self-REF 的输出置信度 + 递归置信度绑定的内部置信度

关键引用：