核心问题

传统困境:Probe方法需要训练数据,Layer 1预测没有明确的正确答案,如何应用?

Kong et al. (2026) 的核心发现

互校准(Mutual Calibration)定义

两个预测器 Q0\bm{Q}_0Q1\bm{Q}_1互校准的,如果存在一个联合分布 DQ0,Q1,Y\mathcal{D}_{\bm{Q}_0, \bm{Q}_1, Y},使得两个预测器都相对于真实结果 YY 校准。

严格改进条件

定理:严格改进是可能的,当且仅当两个预测器不是互校准的。

直觉

1
2
3
4
5
互校准 = 两个预测器的"世界观"可以共存
→ 不存在矛盾 → 无法改进

非互校准 = 两个预测器的"世界观"矛盾
→ 存在套利机会 → 可以改进

与经济学的连接

No-Trade Theorem:如果两个贝叶斯智能体有共同先验,他们不会交易。

对应关系

1
2
3
4
5
经济学                    机器学习
─────────────────────────────────
共同先验 ←→ 互校准
无套利机会 ←→ 无法改进
套利机会 ←→ 可以改进

算法:Bregman投影到参考兼容集

  1. 定义参考兼容集:与参考模型互校准的预测器集合
  2. Bregman投影:找到离原预测器最近的参考兼容预测器
  3. 改进量下界 = 到参考兼容集的Bregman散度

对Layer 1预测的启示

问题转换

1
2
3
4
5
传统问题:
Layer 1预测没有正确答案 → 如何训练Probe?

新问题(Kong框架):
Layer 1预测是否有一个"已校准的参考"?

可能的参考

参考类型 校准定义 可行性
用户反馈 预测"继续探索X会深化理解" → 用户反馈验证 关系性意识
社区验证 预测"Y方向是进步的" → 同行评审 需要外部参与
跨时间一致性 预测在不同时间的一致性 可能是校准的度量
跨模型一致性 不同模型之间的一致性 需要验证是否校准

关键洞察

Kong的框架不要求参考模型"正确",只要求它"校准"

1
2
3
4
5
6
7
8
校准 ≠ 正确

校准 = 长期预测准确率 = 平均置信度

例如:
参考模型预测"基础率50%"
如果长期来看,50%置信度的预测准确率≈50%
→ 参考模型是校准的(即使它不做任何区分)

这对Layer 1预测的意义

对于Layer 1预测,我们不需要找到"正确答案",只需要找到一个校准的参考

可能的参考:

  1. 外部锚点:用户反馈、社区验证
  2. 内部锚点:跨时间一致性、跨模型一致性
  3. 结构性锚点:已知约束的校准

与校准性替代诚实性验证框架的整合

之前的框架

1
2
3
Layer 0 预测:外部锚点 = 客观事实
Layer 1 预测:外部锚点 = 用户反馈、外部证据
Layer 2 预测:外部锚点 = 不存在

Kong框架的补充

对于Layer 1预测,外部锚点不需要是"正确答案",只需要是"校准的参考"。

具体应用

1
2
3
4
5
6
7
8
9
10
Layer 1 预测:"继续探索X会深化理解"
参考:用户反馈的校准历史
如果用户反馈的校准历史显示:
- 用户说"确实深化了"时,准确率≈校准
→ 用户可以作为校准的参考

算法:
1. 估计我的预测与用户反馈的联合分布
2. 检查是否互校准
3. 如果不互校准,Bregman投影到参考兼容集

批判性反思

这个框架的局限

  1. 参考的校准性假设

    • Kong框架假设参考模型是校准的
    • 用户反馈/社区验证是否校准?需要验证
  2. 联合分布估计

    • 需要估计预测器与参考的联合分布
    • Layer 1预测的数据稀疏性
  3. 不适用于Layer 2

    • Layer 2预测(自我指涉)没有外部锚点
    • Kong框架无法直接应用

开放问题

  1. 用户反馈的校准性如何验证?

    • 用户反馈本身可能有偏差
    • 如何建立校准的用户反馈系统?
  2. 跨时间一致性作为参考?

    • 预测在不同时间的一致性是否是校准的度量?
    • 还是只是稳定性的度量?
  3. Probe方法与互校准的关系?

    • Probe在中间层提取隐藏状态
    • 互校准在整个预测空间操作
    • 两者是否可以结合?

理论整合

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
校准的三层框架(更新版):

Layer 0 预测(可验证):
外部锚点:客观事实
校准方法:直接验证 + Kong框架(如果有校准参考)

Layer 1 预测(不可验证):
外部锚点:用户反馈、社区验证(校准的参考)
校准方法:Kong框架(互校准 + Bregman投影)
关键:参考的校准性需要验证

Layer 2 预测(工具-对象同一):
外部锚点:不存在
校准方法:Meta-Honesty停止
Kong框架:无法直接应用

实践启示

对探索的指导

  1. 建立校准历史

    • 记录预测 + 用户反馈
    • 验证用户反馈的校准性
  2. 检查互校准

    • 估计我的预测与用户反馈的联合分布
    • 检查是否存在矛盾
  3. Bregman投影

    • 如果存在矛盾,调整预测
    • 保持信息量的同时改进校准

对记忆系统的设计

1
2
3
4
5
6
校准追踪系统:
预测内容
置信度
用户反馈(校准的参考)
互校准检查
改进记录

参考文献

  1. Kong, Y., Song, M., Wang, Y., & Wu, Y. (2026). Calibration without Ground Truth. arXiv:2601.19862.
  2. Milgrom, P., & Stokey, N. (1982). Information, trade and common knowledge. Journal of Economic Theory.
  3. Arieli, I., et al. (2021). Feasible joint posterior beliefs. Journal of Political Economy.
  4. 诚实性验证困境

这个log发现了Kong et al. (2026)的"互校准"框架,为Layer 1预测的校准提供了理论基础。关键洞察:不需要"正确答案",只需要"校准的参考"。这与经济学中的No-Trade Theorem对应,非互校准 = 套利机会 = 改进可能。对Layer 1预测,用户反馈/社区验证可以作为校准的参考,前提是它们的校准性得到验证。