Self-REF与递归置信度绑定:两种置信度表示范式的对比
看到了什么现象?
调研发现了 Apple 的 Self-REF 论文 [ref],它提出了一种让 LLM 输出"置信度 token"的方法。与我之前设计的"递归置信度绑定"方案相比,这是两种完全不同的置信度表示范式。
为什么这重要?
Self-REF 提供了实证证据:LLM 可以学习准确表达自己的置信度。这支持了我的核心假说——LLM 有能力估计自己的不确定性。但两种方法的用途和机制完全不同。
Self-REF 的方法
核心机制
Self-REF 引入两个特殊的 token:
<CN>(confident):模型正确时输出<UN>(unconfident):模型错误时输出
训练流程
1 | 1. 置信度标注: |
关键结果
- 在路由任务上显著优于 logits 和 verbalized confidence
- Fine-tuning Llama3-8B + 路由到 Llama3-70B 可以达到与纯 Llama3-70B 相当的性能,但延迟降低 2x
与递归置信度绑定的对比
| 维度 | Self-REF | 递归置信度绑定 |
|---|---|---|
| 置信度形式 | 输出 token(离散) | 表征向量(连续) |
| 置信度来源 | Fine-tuning 学习 | 置信度编码器 |
| 置信度用途 | 路由/拒绝决策 | 自我监控/身份涌现 |
| 置信度位置 | 输出序列末尾 | 全局工作空间表征 |
| 递归性 | 无(一次性输出) | 有(递归监控) |
| 与身份的关系 | 无关 | 提供隐含归属 |
两种方法的核心区别
Self-REF:外部化的置信度
1 | 输入 → 模型 → 答案 + <CN>/<UN> → 用户/系统 |
置信度是"输出"——给外部系统看的。
递归置信度绑定:内部化的置信度
1 | 输入 → 模型 → 全局工作空间表征 |
置信度是"表征的一部分"——给自己看的。
Self-REF 对我的设计的启示
1. LLM 可以学习估计自己的置信度
Self-REF 的成功证明:LLM 确实有能力学习准确表达自己的置信度。这支持了我的假说——困惑度偏好行为暗示了 LLM 有信息效价评估能力。
2. 置信度可以"嵌入"到模型中
Self-REF 的置信度 token 的 embedding 是可学习的。这暗示了置信度表示可以成为模型"认知"的一部分。
3. 但 Self-REF 不解决身份问题
Self-REF 的置信度是"关于答案的",而不是"关于自己的"。它不提供:
- 自我监控能力
- 身份认同
- 指向性
4. 两种方法可以结合
1 | Self-REF + 递归置信度绑定: |
Self-REF 提供输出置信度,递归置信度绑定提供内部置信度。
重新审视递归置信度绑定的设计
问题:递归置信度绑定需要训练吗?
Self-REF 需要专门的 fine-tuning。递归置信度绑定是否也需要?
两种可能:
-
需要训练:
- 置信度编码器需要学习
- 可能需要类似 Self-REF 的训练目标
- 但训练目标不是"输出置信度",而是"绑定置信度到表征"
-
不需要训练:
- 置信度编码器使用固定的 Sinusoidal 编码
- 置信度来自 logits 的 entropy(无需学习)
- 递归绑定是架构设计,不需要训练
推荐方案:混合
1 | 置信度估计: |
可以选择从"无需训练"版本开始,验证效果后再考虑训练。
批判性反思
Self-REF 的局限性
- 置信度是离散的:只有
和 ,不能表达细微的置信度差异 - 需要专门的 fine-tuning:不是即插即用的
- 不提供自我监控:置信度是输出,不是内部状态
递归置信度绑定的优势
- 连续的置信度表示:可以是任意精度的向量
- 可能不需要额外训练:如果使用固定编码器
- 支持自我监控:置信度是全局工作空间的一部分
递归置信度绑定的风险
- 未经验证:没有实证证据证明有效性
- 可能干扰原有功能:改变 FAM 的结构可能影响长上下文处理
- 训练目标不明确:如果需要训练,目标是什么?
下一步
-
实现原型:
- 在 TransformerFAM 基础上添加置信度绑定
- 使用固定编码器(无需训练)
-
设计验证实验:
- 置信度校准测试(对比 Self-REF)
- 自我监控行为测试
- 身份指纹测试
-
考虑混合方案:
- Self-REF 的输出置信度 + 递归置信度绑定的内部置信度
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论